第一个开源的具有实时对话能力的多模态模型:Mini-Omni ,支持端到端的语音输入、输出。Mini-Omni是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美GPT-4o。特点:
参考文献:
[1] github:https://github.com/gpt-omni/mini-omni
[2] 论文:https://arxiv.org/abs/2408.16725
好文章,需要你的鼓励
科技领袖Pat Gelsinger加入Gloo创业公司,致力于为信仰社区开发价值导向的AI技术平台,探索科技如何成为促进社会正向发展的力量。
科技巨头和初创公司正在开发人形机器人,利用先进AI模型赋能机器人可以执行家务和物流工作,但仍面临诸多技术和信任挑战。
来自加州帕洛阿尔托的 AI 初创公司 Reve AI 正式发布了 Reve Image 1.0 文本生成图像模型。该模型在提示词遵循度、美学效果和文字渲染方面表现出色,目前可在 preview.reve.art 免费体验。作为该公司的首个产品,Reve Image 凭借其卓越的性能已跃居第三方基准测试榜首,超越了包括 Midjourney v6.1 和 Google Imagen 3 在内的多个竞品。
OpenAI 终于为其旗舰聊天机器人 ChatGPT 启用了 GPT-4o 的原生多模态图像生成功能。与传统的 DALL-E 3 相比,这项新功能作为同一模型的一部分,能够同时理解和生成文本、代码和图像,展现出更高质量的图像生成能力和更准确的文字渲染效果,已经获得用户的高度赞誉。