第一个开源的具有实时对话能力的多模态模型:Mini-Omni ,支持端到端的语音输入、输出。Mini-Omni是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美GPT-4o。特点:
参考文献:
[1] github:https://github.com/gpt-omni/mini-omni
[2] 论文:https://arxiv.org/abs/2408.16725
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。