人工智能初创公司 ElevenLabs 在最近完成 1.8 亿美元大规模融资后,又迈出了新的技术步伐。这家以音频生成技术闻名的公司推出了其首个独立的语音转文本模型 Scribe。
这家估值达 33 亿美元的初创公司此前通过其丰富的声音库为许多公司提供语音转文本服务。如今,公司正寻求进军语音识别领域,与 Gladia、Speechmatics、AssemblyAI、Deepgram 以及 OpenAI 的 Whisper 模型展开竞争。
ElevenLabs 的 Scribe 模型一经推出就支持超过 99 种语言。该公司将其中 25 种语言归类为高精度类别,这些语言的词错率低于 5%。这份名单包括英语 (声称准确率达 97%)、法语、德语、印地语、印尼语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语。其他语言则按照词错率被分为不同等级:高等 (5% 到 10%)、良好 (10% 到 20%) 和中等 (25% 到 50%)。
公司表示,在 FLEURS 和 Common Voice 基准测试中,该模型在多种语言上的表现超过了 Google Gemini 2.0 Flash 和 Whisper Large V3。
去年,ElevenLabs 为其 AI 对话代理平台开发了语音转文本组件。但这是该公司首次发布独立的语音识别模型。在上个月与 TechCrunch 的对话中,CEO Mati Staniszewski 谈到了改进语音识别模型的计划。
"我们希望能更好地理解对话中你所说的内容。我们正在研究如何不仅仅局限于生成内容,而是理解和转录语音," Staniszewski 当时表示。"很多人说语音转文本是一个已解决的问题。但对于许多语言来说,效果其实很差。我们认为可以开发出更好的语音识别模型,因为我们有内部团队可以标注数据并提供快速反馈。"
该模型还具备智能说话人分离功能,可识别发言者身份,支持词级时间戳以实现精确字幕,并能自动标注笑声等声音事件。该公司在其工作室中提供了直接转录视频内容并添加字幕的功能。
Scribe 目前仅支持预录制的音频格式。公司表示将很快推出低延迟的实时版本模型。这意味着目前该模型还不适用于会议记录或语音笔记等场景。
ElevenLabs 为 Scribe 定价为每小时音频转录 0.40 美元。虽然这个价格具有竞争力,但其部分竞争对手目前提供更低的音频转录价格,同时在功能上有所差异。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。