Thinking Machines正在开发可实时响应用户的AI"交互模型"。
由前OpenAI首席技术官Mira Murati创立的AI公司Thinking Machines,于近日宣布正在研发一种名为"交互模型"的全新技术。根据Thinking Machines的介绍,交互模型将允许人们"以自然协作的方式与AI合作——持续接收音频、视频和文本输入,并实时思考、响应和行动"。
Thinking Machines对此解释道:
当前的模型以单线程方式感知现实。在用户完成输入或说话之前,模型处于等待状态,无法感知用户的行为或状态;而在模型生成内容的过程中,其感知也处于冻结状态,无法接收新信息,直到生成完成或被打断为止。这种机制形成了人机协作的窄带瓶颈,限制了用户的知识、意图和判断力传递给模型的效率,也限制了模型工作内容被理解的程度。这就好比试图通过电子邮件而非面对面交流来解决一个关键分歧。
Thinking Machines认为,通过让AI在任意模态下实现实时交互,可以有效解决这一带宽瓶颈问题,从而让AI界面主动适应人类,而非迫使人类去迁就AI界面。
Thinking Machines还展示了多个交互模型的实际应用场景,包括在故事中监听动物相关的提及内容、实时翻译语音,以及提醒用户注意坐姿等。
目前,Thinking Machines已在官网发布了关于交互模型的详细说明。不过,用户暂时还无法亲自体验该功能;公司计划在"未来几个月内"开放"有限研究预览版",并预计于"今年晚些时候"进行更大范围的公开发布。
Murati于2025年2月离开OpenAI后创立了Thinking Machines。然而,这家AI实验室近期面临较为严峻的人才流失问题,多名核心成员相继跳槽至Meta,甚至有人重返OpenAI。
Q&A
Q1:Thinking Machines的交互模型和普通AI模型有什么区别?
A:普通AI模型以单线程方式运作,需要等用户完成输入后才开始处理,生成内容期间也无法接收新信息。而Thinking Machines的交互模型可以同时持续接收音频、视频和文本,并实时思考和响应,更接近人与人之间自然协作的方式,大幅减少了人机交互的信息传递瓶颈。
Q2:Thinking Machines的交互模型目前可以使用吗?
A:目前还不能公开使用。Thinking Machines计划在未来几个月内开放有限研究预览版,并预计在2025年晚些时候进行更大范围的公开发布。感兴趣的用户可以关注其官网获取最新动态。
Q3:Mira Murati为什么离开OpenAI去创立Thinking Machines?
A:文章中未详细说明Murati离开OpenAI的具体原因,仅提到她于2025年2月离开OpenAI后创立了Thinking Machines。目前该公司专注于开发可实时多模态交互的AI技术,但公司也面临核心人才流失的挑战,部分成员已跳槽至Meta或重返OpenAI。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。