据报道,OpenAI集团正在开发一款专门针对音频生成任务优化的全新人工智能模型。
《The Information》今日援引消息人士称,该算法将于3月底前发布。据该出版物报道,预计新模型将产生比OpenAI当前模型更自然的语音效果。该AI还将在处理与用户的实时双向交互方面表现更佳。
据报道,OpenAI将基于全新架构构建该模型。该公司目前的旗舰实时音频模型GPT-realtime采用了广泛使用的Transformer架构。目前尚不清楚该公司是否会转向完全不同的算法设计,还是仅仅采用新的Transformer实现方案。
一些基于Transformer的音频模型直接处理语音。而其他模型,如OpenAI在2022年发布的Whisper算法,会先将音频文件转换为称为频谱图的图形,然后再进行处理。Whisper和该公司较新的音频模型都提供多个版本,输出质量各不相同。OpenAI可能也会为预计本季度发布的算法提供多个版本。
据报道,该公司已将多个工程、产品和研究团队整合,以支持其音频模型推进计划。该项目据称由Kundan Kumar领导,他是风投支持的AI提供商Character.AI公司的前研究员。该初创公司的许多其他员工在2024年底作为27亿美元反向收购的一部分加入了谷歌公司。
OpenAI即将推出的模型可能不会仅专注于语音生成用例。新兴的AI音乐生成领域目前正经历快速增长:《华尔街日报》最近报道称,市场参与者之一、初创公司Suno公司正在产生超过2亿美元的年收入。进入这一领域可能有助于OpenAI提升其消费者业务。
即将推出的音频模型是该公司进入消费电子产品市场更广泛努力的一部分。据《The Information》报道,OpenAI计划在大约一年内推出"音频优先的个人设备"。据信该公司最终可能推出包括智能音箱和智能眼镜在内的完整设备产品组合。
去年5月,OpenAI收购了产品设计初创公司io Products来支持其消费硬件推进计划。该交易对这家由Jony Ive创立的初创公司估值65亿美元。10月,《金融时报》报道称,Ive正在开发一款智能手机大小的设备,设计用于放置在桌子或台面上。
OpenAI可能寻求开发轻量级的设备端音频模型来支持其进入消费硬件的举措。在本地处理提示比将它们发送到云端更具成本效益。谷歌在其Pixel智能手机系列中采用了类似方法,使用名为Gemini Nano的设备端模型来支持某些AI功能。
Q&A
Q1:OpenAI新音频模型有什么特别之处?
A:OpenAI即将推出的新音频模型基于全新架构构建,预计将产生比当前模型更自然的语音效果,并在处理与用户的实时双向交互方面表现更佳。该模型计划于2025年第一季度末发布。
Q2:OpenAI为什么要开发音频模型?
A:这是OpenAI进入消费电子产品市场更广泛战略的一部分。AI音乐生成领域正快速增长,加入这一领域可能帮助提升消费者业务。同时为支持计划中的"音频优先个人设备"和智能硬件产品组合。
Q3:OpenAI在消费硬件方面有什么计划?
A:OpenAI计划在大约一年内推出"音频优先的个人设备",最终可能推出包括智能音箱和智能眼镜的完整设备组合。公司已收购Jony Ive创立的产品设计公司io Products来支持硬件推进计划。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
伊尔德兹技术大学团队通过词典手术和离线蒸馏,以不足20美元成本打造出专为土耳其语优化的200M参数句子嵌入模型,在语义相似度任务上超越了参数量更大的原版教师模型。