OpenAI于周四宣布,其API将新增多项语音智能功能,旨在帮助开发者构建能够与用户进行语音对话、转录及翻译的应用程序。
全新语音模型GPT-Realtime-2
OpenAI推出的全新语音模型GPT-Realtime-2,能够生成逼真的语音模拟效果,与用户进行自然对话。与前代产品GPT-Realtime-1.5不同,该模型搭载了GPT-5级别的推理能力,专为处理用户提出的更复杂请求而设计。
实时翻译功能GPT-Realtime-Translate
与此同时,OpenAI还推出了GPT-Realtime-Translate,顾名思义,该功能旨在提供能够与用户"保持同步"的实时对话翻译服务。该功能支持超过70种输入语言(即可识别理解的语言)以及13种输出语言(即向用户传达内容所使用的语言)。
实时转录功能GPT-Realtime-Whisper
此外,OpenAI还发布了全新转录功能GPT-Realtime-Whisper,为用户提供实时语音转文字能力,可在对话进行的同时即时捕获内容。
OpenAI对此表示:"我们此次推出的这些模型,将实时音频从简单的问答式交互推向了真正能够完成实际工作的语音界面——在对话展开的过程中,系统能够聆听、推理、翻译、转录并采取相应行动。"
应用场景与潜在价值
这些功能的更新将惠及哪些群体?希望提升客服能力的企业是最显而易见的受益方。不过,OpenAI同时指出,这些新功能将在教育、媒体、活动策划、内容创作者平台等众多领域发挥重要作用。
安全机制与滥用防范
尽管这些工具从企业应用角度来看极具价值,但潜在的滥用风险同样不容忽视。对此,OpenAI表示已内置安全防护机制,以防止新功能被用于制造垃圾信息、欺诈或其他形式的网络滥用行为。系统中设有特定触发机制,"一旦检测到对话内容违反有害内容准则,即可立即终止对话"。
定价方式
所有新增语音模型均已纳入OpenAI的Realtime API。其中,Translate和Whisper按分钟计费,而GPT-Realtime-2则按Token消耗量计费。
Q&A
Q1:GPT-Realtime-2与GPT-Realtime-1.5相比有哪些改进?
A:GPT-Realtime-2在前代产品的基础上进行了重大升级,核心改进在于搭载了GPT-5级别的推理能力。这意味着新模型不仅能够生成更逼真的语音模拟效果,还能处理用户提出的更为复杂的请求,而不仅仅局限于简单的问答式交互,真正实现了在对话过程中的聆听、推理与行动能力。
Q2:GPT-Realtime-Translate支持哪些语言?
A:GPT-Realtime-Translate支持超过70种输入语言,即系统可以识别和理解的语言;同时支持13种输出语言,即系统向用户传达内容时所使用的语言。该功能旨在提供与用户对话节奏保持同步的实时翻译服务,适用于教育、媒体、活动策划等多种场景。
Q3:OpenAI如何防止这些语音功能被滥用?
A:OpenAI已在系统中内置了专门的安全防护机制与特定触发条件。一旦系统检测到对话内容违反有害内容准则,即可自动终止对话。这些措施旨在防止相关功能被用于制造垃圾信息、实施欺诈或从事其他形式的网络滥用行为,从而保障功能在合法合规的场景下使用。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。