由前OpenAI首席技术官Mira Murati去年创立的AI初创公司Thinking Machines Lab,于本周一宣布推出一项名为"交互模型"的技术。简单来说,这是一种可以在你说话时打断你的AI。
目前,所有AI模型的工作方式都相同:你说话,它倾听;它回应,你倾听。Thinking Machines正试图打破这一模式,通过构建一个能够同时处理用户输入并生成回应的模型,使交互体验更像打电话,而非发短信。
这项技术在专业领域被称为"全双工"通信。该公司表示,其模型TML-Interaction-Small的响应时间仅为0.40秒,与自然人类对话的速度大致相当,同时明显快于OpenAI和谷歌同类模型的响应速度。
不过,这目前仍是一个研究预览版,尚未向公众开放。该公司表示,未来几个月内将推出"有限研究预览版",更广泛的正式发布则计划于今年晚些时候进行。
如何评价这项技术?目前还难下定论。从基准测试数据来看,成绩相当亮眼;而其背后的核心理念——交互能力应当是模型的原生特性,而非后期附加功能——同样颇具吸引力。然而,实际使用体验是否能达到技术层面所宣称的效果,只有等到用户真正上手之后才能见分晓。
Q&A
Q1:TML-Interaction-Small模型的响应速度有多快?和其他模型比怎么样?
A:TML-Interaction-Small的响应时间为0.40秒,与自然人类对话速度大致相当,明显快于OpenAI和谷歌的同类模型。这种速度得益于"全双工"通信技术,使模型能够同时处理用户输入和生成回应。
Q2:全双工AI交互和普通AI对话有什么区别?
A:普通AI对话采用"半双工"模式,即用户说话时AI倾听,AI回应时用户倾听,交替进行,类似发短信。全双工模式则允许AI在处理用户输入的同时生成回应,更接近真实电话通话体验,交互更自然流畅。
Q3:Thinking Machines Lab的交互模型什么时候可以使用?
A:目前该模型仍处于研究预览阶段,尚未向公众开放。据Thinking Machines Lab透露,有限研究预览版将在未来几个月内推出,更广泛的正式版本预计于2025年晚些时候发布。
好文章,需要你的鼓励
Converge Bio完成550万美元种子轮融资,由TLV Partners领投。该公司专为生物科技和制药行业打造LLM应用平台,提供数据增强、模型微调及可解释性分析等功能,帮助企业将通用生物基础模型转化为可实际落地的研发工具。以抗体研究为例,平台可将抗体LLM精调至氨基酸级别的结合亲和力预测,并生成优化序列。公司计划用于扩充团队、拓展客户,并发布抗体设计科研论文。
香港大学与哈尔滨工业大学联合发布的这项研究(arXiv:2605.06196)发现,大语言模型在扮演不同社会层级角色时,内部神经网络存在一条清晰的"粒度轴",从普通个人视角延伸至全球机构视角。这条轴是AI角色空间的主导几何方向,可被测量、被跨模型复现,并通过激活引导技术加以操控,为AI社会模拟的可信度评估和角色视角的主动调控提供了新工具。
ChatGPT高级语音模式的创造者Alexis Conneau离开OpenAI后,创办了音频AI初创公司WaveForms AI,并获得由a16z领投的4000万美元种子轮融资。该公司专注于训练自有音频大语言模型,计划于2025年推出与OpenAI、谷歌竞争的AI音频产品。Conneau深受电影《Her》启发,致力于开发具备情感感知能力的语音AI,同时警惕AI伴侣化带来的社会问题,强调技术应服务于人而非取代人际关系。
华盛顿大学研究团队发现,在AI数学推理训练中,将随机拼凑的拉丁文占位词(Lorem Ipsum)添加到题目前,能帮助AI突破"全部答错、训练停滞"的困境,在多个模型上平均提升推理得分2.8至6.2分。研究揭示了有效扰动的两个关键特征:使用拉丁语词汇避免语义干扰,以及保持较低困惑度确保AI能正确理解题目内容。