OpenAI正在大力押注音频AI技术,这不仅仅是为了让ChatGPT听起来更好。据The Information最新报道,该公司在过去两个月中整合了多个工程、产品和研究团队来全面升级其音频模型,为预计在一年后推出的音频优先个人设备做准备。
这一举措反映了整个科技行业的发展方向——朝着屏幕成为背景噪音、音频成为核心的未来迈进。智能音箱已经让语音助手成为超过三分之一美国家庭的固定设备。Meta刚刚为其Ray-Ban智能眼镜推出了一项功能,使用五麦克风阵列帮助用户在嘈杂环境中听清对话——本质上是将你的面部变成定向监听设备。与此同时,谷歌从6月开始试验"音频概览"功能,将搜索结果转换为对话式摘要,特斯拉则将xAI的聊天机器人Grok集成到其车辆中,创建一个通过自然对话处理从导航到气候控制等一切功能的对话式语音助手。
不仅仅是科技巨头在做这样的押注。一群各具特色的初创公司也怀着同样的信念出现,尽管成功程度各不相同。Humane AI Pin的制造商在他们的无屏可穿戴设备成为警示故事之前已经烧掉了数亿美元。Friend AI吊坠声称能记录你的生活并提供陪伴,引发了隐私担忧和存在焦虑。现在至少有两家公司,包括Sandbar和由Pebble创始人Eric Migicovsky领导的公司,正在开发预计2026年推出的AI戒指,让佩戴者真正可以对手说话。
形态因素可能不同,但观点是相同的:音频是未来的界面。每个空间——你的家、你的汽车,甚至你的脸——都在成为控制表面。
OpenAI计划于2026年初推出的新音频模型据报道将听起来更自然,能像真正的对话伙伴一样处理打断,甚至能在你说话时同时说话,这是目前模型无法做到的。该公司还被认为设想了一系列设备,可能包括眼镜或无屏智能音箱,它们更像伙伴而不是工具。
这些都不太令人惊讶。正如The Information指出的,前苹果设计主管Jony Ive通过该公司5月份65亿美元收购其公司io而加入了OpenAI的硬件工作,他将减少设备成瘾作为优先事项,认为音频优先设计是"纠正"过去消费电子产品"错误"的机会。
Q&A
Q1:OpenAI的新音频模型有什么特别之处?
A:OpenAI计划于2026年初推出的新音频模型将听起来更自然,能像真正的对话伙伴一样处理打断,甚至能在用户说话时同时说话,这是目前模型无法做到的功能。
Q2:为什么科技公司都在发展音频技术?
A:整个科技行业正朝着屏幕成为背景噪音、音频成为核心的未来发展。音频被认为是未来的界面,每个空间都在成为控制表面,能提供更自然的交互体验。
Q3:除了OpenAI,还有哪些公司在开发音频设备?
A:Meta为Ray-Ban智能眼镜添加了五麦克风阵列功能,谷歌推出音频概览功能,特斯拉集成xAI的Grok聊天机器人,还有多家初创公司如Sandbar等正在开发AI戒指等音频设备。
好文章,需要你的鼓励
企业不仅能精准掌握碳足迹,更能在运营中产生可量化的商业价值,真正将可持续性从“理念”变为“行动”。
剑桥大学研究团队首次系统探索AI在多轮对话中的信心判断问题。研究发现当前AI系统在评估自己答案可靠性方面存在严重缺陷,容易被对话长度而非信息质量误导。团队提出P(SUFFICIENT)等新方法,但整体问题仍待解决。该研究为AI在医疗、法律等关键领域的安全应用提供重要指导,强调了开发更可信AI系统的紧迫性。
人工智能可能并非完全处于泡沫状态,但大语言模型可能确实存在泡沫。他指出,尽管AI基础设施投资巨大,但开源模型在性能上已接近商业前沿模型,且成本更低。Zemlin预测2026年将迎来以开放生态系统为主导的"性能与效率时代",并强调PARK技术栈将成为AI部署的默认平台。
威斯康星大学研究团队开发出Prithvi-CAFE洪水监测系统,通过"双视觉协作"机制解决了AI地理基础模型在洪水识别上的局限性。该系统巧妙融合全局理解和局部细节能力,在国际标准数据集上创造最佳成绩,参数效率提升93%,为全球洪水预警和防灾减灾提供了更准确可靠的技术方案。