由前OpenAI首席技术官Mira Murati去年创立的AI初创公司Thinking Machines Lab,于本周一宣布推出一项名为"交互模型"的技术。简单来说,这是一种可以在你说话时打断你的AI。
目前,所有AI模型的工作方式都相同:你说话,它倾听;它回应,你倾听。Thinking Machines正试图打破这一模式,通过构建一个能够同时处理用户输入并生成回应的模型,使交互体验更像打电话,而非发短信。
这项技术在专业领域被称为"全双工"通信。该公司表示,其模型TML-Interaction-Small的响应时间仅为0.40秒,与自然人类对话的速度大致相当,同时明显快于OpenAI和谷歌同类模型的响应速度。
不过,这目前仍是一个研究预览版,尚未向公众开放。该公司表示,未来几个月内将推出"有限研究预览版",更广泛的正式发布则计划于今年晚些时候进行。
如何评价这项技术?目前还难下定论。从基准测试数据来看,成绩相当亮眼;而其背后的核心理念——交互能力应当是模型的原生特性,而非后期附加功能——同样颇具吸引力。然而,实际使用体验是否能达到技术层面所宣称的效果,只有等到用户真正上手之后才能见分晓。
Q&A
Q1:TML-Interaction-Small模型的响应速度有多快?和其他模型比怎么样?
A:TML-Interaction-Small的响应时间为0.40秒,与自然人类对话速度大致相当,明显快于OpenAI和谷歌的同类模型。这种速度得益于"全双工"通信技术,使模型能够同时处理用户输入和生成回应。
Q2:全双工AI交互和普通AI对话有什么区别?
A:普通AI对话采用"半双工"模式,即用户说话时AI倾听,AI回应时用户倾听,交替进行,类似发短信。全双工模式则允许AI在处理用户输入的同时生成回应,更接近真实电话通话体验,交互更自然流畅。
Q3:Thinking Machines Lab的交互模型什么时候可以使用?
A:目前该模型仍处于研究预览阶段,尚未向公众开放。据Thinking Machines Lab透露,有限研究预览版将在未来几个月内推出,更广泛的正式版本预计于2025年晚些时候发布。
好文章,需要你的鼓励
英国科学、创新与技术部(DSIT)与思科签署合作备忘录,框架延伸至2030年,旨在借助AI和数字技术推动经济增长、提升公共服务水平并培育数字技能。合作核心包括:将巴恩斯利打造为英国首个"科技城镇"、探索医疗健康实验室建设、支持百万中学生接触AI教育,以及通过思科网络学院帮助更多人掌握数字技能。过去一年,思科已帮助10万人完成技能培训。
耶鲁大学研究团队证明两层神经网络在学习有限群运算时,梯度下降自发驱动每个神经元收敛到单一不可约群表示,并在傅里叶域实现秩一旋转对齐,揭示了特征学习的表示论机制。
微软AI首席执行官穆斯塔法·苏莱曼近日公开表示,Anthropic的AI服务价格过高,许多用户正在寻找替代方案。与此同时,微软在年度Build大会上发布七款新AI模型,主打低成本优势,希望帮助企业实现AI项目的商业可行性。据悉,微软还计划于6月底取消大部分Claude Code授权,将工程师转移至自家Copilot工具,显示出其在AI开发者工具市场上的竞争意图。
强化学习训练的大语言模型可在无任何指令的情况下自发发现社会规章制度漏洞,现有安全机制对此几乎无效,这一现象或将重塑AI安全防护框架。