Thinking Machines正在开发可实时响应用户的AI"交互模型"。
由前OpenAI首席技术官Mira Murati创立的AI公司Thinking Machines,于近日宣布正在研发一种名为"交互模型"的全新技术。根据Thinking Machines的介绍,交互模型将允许人们"以自然协作的方式与AI合作——持续接收音频、视频和文本输入,并实时思考、响应和行动"。
Thinking Machines对此解释道:
当前的模型以单线程方式感知现实。在用户完成输入或说话之前,模型处于等待状态,无法感知用户的行为或状态;而在模型生成内容的过程中,其感知也处于冻结状态,无法接收新信息,直到生成完成或被打断为止。这种机制形成了人机协作的窄带瓶颈,限制了用户的知识、意图和判断力传递给模型的效率,也限制了模型工作内容被理解的程度。这就好比试图通过电子邮件而非面对面交流来解决一个关键分歧。
Thinking Machines认为,通过让AI在任意模态下实现实时交互,可以有效解决这一带宽瓶颈问题,从而让AI界面主动适应人类,而非迫使人类去迁就AI界面。
Thinking Machines还展示了多个交互模型的实际应用场景,包括在故事中监听动物相关的提及内容、实时翻译语音,以及提醒用户注意坐姿等。
目前,Thinking Machines已在官网发布了关于交互模型的详细说明。不过,用户暂时还无法亲自体验该功能;公司计划在"未来几个月内"开放"有限研究预览版",并预计于"今年晚些时候"进行更大范围的公开发布。
Murati于2025年2月离开OpenAI后创立了Thinking Machines。然而,这家AI实验室近期面临较为严峻的人才流失问题,多名核心成员相继跳槽至Meta,甚至有人重返OpenAI。
Q&A
Q1:Thinking Machines的交互模型和普通AI模型有什么区别?
A:普通AI模型以单线程方式运作,需要等用户完成输入后才开始处理,生成内容期间也无法接收新信息。而Thinking Machines的交互模型可以同时持续接收音频、视频和文本,并实时思考和响应,更接近人与人之间自然协作的方式,大幅减少了人机交互的信息传递瓶颈。
Q2:Thinking Machines的交互模型目前可以使用吗?
A:目前还不能公开使用。Thinking Machines计划在未来几个月内开放有限研究预览版,并预计在2025年晚些时候进行更大范围的公开发布。感兴趣的用户可以关注其官网获取最新动态。
Q3:Mira Murati为什么离开OpenAI去创立Thinking Machines?
A:文章中未详细说明Murati离开OpenAI的具体原因,仅提到她于2025年2月离开OpenAI后创立了Thinking Machines。目前该公司专注于开发可实时多模态交互的AI技术,但公司也面临核心人才流失的挑战,部分成员已跳槽至Meta或重返OpenAI。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。