第一个开源的具有实时对话能力的多模态模型:Mini-Omni

Mini-Omni是清华大学启元实验室开源的多模态模型,具备实时语音到语音的对话能力,无需额外的ASR或TTS模型。它能够边思考边说话,支持流式音频输出,并能通过'Any Model Can Talk'方法为其他模型添加语音交互能力。

第一个开源的具有实时对话能力的多模态模型:Mini-Omni ,支持端到端的语音输入、输出。Mini-Omni是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美GPT-4o。特点:

  • 实时语音到语音的对话能力: 无需额外的ASR或TTS模型
  • 边思考边说话: 能够同时生成文本和音频
  • 流式音频输出: 支持流式音频输出
  • "Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中,为其他模型赋能
第一个开源的具有实时对话能力的多模态模型:Mini-Omni
第一个开源的具有实时对话能力的多模态模型:Mini-Omni

参考文献:
[1] github:https://github.com/gpt-omni/mini-omni
[2] 论文:https://arxiv.org/abs/2408.16725

 

来源:NLP工程化

0赞

好文章,需要你的鼓励

2024

09/03

20:04

分享

点赞

NLP工程化

专注于Python/C++/CUDA、ML/DL/RL和NLP/KG/DS/LLM领域的技术分享。

最近文章 :