人工智能创业公司aiOla表示,它已准备好在语音识别领域与OpenAI集团和阿里巴巴控股等巨头展开竞争,推出了一款基于流匹配训练技术的新型语音AI模型。
这款新模型被称为Drax,它重新定义了AI语音算法的训练方式,能够更好地捕捉真实环境中语音的细微差别。据该创业公司介绍,这使得该模型能够消除当今最佳语音模型的延迟和不准确性。该公司声称,Drax能够在最嘈杂的环境中识别口语单词,其准确性和低延迟性能都超越了以往任何产品——包括OpenAI的Whisper和阿里巴巴的Qwen2。
该创业公司表示,其目标是变革AI驱动的语音识别技术,使其足够可靠,能够在日常生活和商业环境中使用。目前,现有的AI模型还无法很好地满足这一需求,因为它们的训练方式意味着必须在速度或性能之间做出牺牲。
据aiOla介绍,OpenAI的Whisper表现令人印象深刻,但其准确性源于逐个Token处理语音的方式,这种方式太慢,在许多情况下无法发挥实用价值。虽然对于录制简短笔记或听写很有用,但Whisper难以跟上长篇音频,比如长达一小时的办公室会议或可能拖延很久的复杂客户通话。
为了提高语音识别的速度,OpenAI的一些竞争对手转而研究使用基于扩散的模型,这种模型可以同时处理多个Token。阿里巴巴是这一领域的领导者之一,其Qwen2系统比Whisper快得多,但在准确性方面难以匹敌。部分问题在于,它是在干净、理想化的数据上训练的,而不是在真实环境中听到的嘈杂且不可预测的语音上训练,这些语音可能会在一定程度上被背景中的窃窃私语或嘈杂的办公室环境所淹没。
基于并行流处理
通过Drax,aiOla表示已经找到了一种训练语音识别系统的新颖技术,最终能够在速度和准确性之间取得正确的平衡。与试图从随机噪音中提炼图片的扩散模型类似,Drax试图从嘈杂的表示中重构人类语音。
训练过程涉及一个三步概率路径,首先从无意义的噪音开始,然后过渡到"类似语音"但仍不完美的中间状态。这使Drax接触到现实世界中发生的现实、声学上合理的错误,提高了它在背景噪音中理解语音的能力,包括带口音的语音。最后,它将收敛到清晰正确的转录文本。
AI副总裁Gil Hetz表示,在语音技术的最关键应用中,不允许出现任何错误。例如,如果AI聊天机器人无法理解人们试图告诉它的内容,公司就无法使用AI聊天机器人来处理客户支持。它需要在所有情况下都可靠的技术。
"这就是为什么Drax是如此重大的突破,"他说。"它结合了准确性和速度,没有妥协,能够处理真实世界的语音,无论背景噪音、口音或术语如何。"
虽然OpenAI的Whisper和大多数其他自动语音识别模型按顺序处理口语单词,一次预测一个Token,但Drax可以并行输出整个Token序列,一次性捕捉整个对话。该公司称这是训练语音模型的"并行、基于流的方法",成功消除了延迟,同时防止了在较长转录过程中发生的复合错误。
该创业公司认为Drax是一个重大发展,因为语音是迄今为止最自然、最高效的数据输入媒介,很可能成为人类与机器沟通的默认方式。目前这种情况尚未发生,因为AI转录无法跟上节奏。但Drax承诺会有所不同。
"我们正在缩小这一差距,使语音技术在大规模应用中真正实用,"aiOla总裁Amir Haramty说。"这就是为什么推进语音识别如此重要——这是企业的未来。"
开源发布
该创业公司表示,它正在GitHub和Hugging Face上以宽松的开源许可证提供Drax,有三种模型规模可供选择。它们包括轻量级Flash版本、中等规模模型和全规模基础模型,因此可以在处理能力最小的低功耗设备上运行,或者在云端大规模运行。
"通过开源,我们希望激发社区的进一步发现和协作,"aiOla首席科学家Yossi Keshet说。
与模型一起,aiOla发布了显示Drax与主要竞争对手性能对比的研究。该公司称,在英语基准测试中,Drax的平均词错误率为7.4%,领先于OpenAI的Whisper-large-v3,后者达到了7.6%。该公司表示,它在各种选定数据集上也优于Whisper和阿里巴巴的Qwen2-audio,同时运行速度快达32倍。在法语、德语、中文和西班牙语基准测试中,它保持了相当或更好的准确性,同时保持了相似的性能水平。
该创业公司最终希望看到Drax在企业中得到广泛采用,并以语音速度运行几乎任何业务流程。它设想了一个世界,其中AI智能体能够理解自然语言命令并将其转换为结构化数据和现实世界的任务执行,即使在嘈杂且充满术语的环境中也是如此。
Q&A
Q1:Drax语音识别模型有什么特别之处?
A:Drax是aiOla公司开发的AI语音识别模型,采用了基于流匹配的新型训练技术。它能够在速度和准确性之间取得完美平衡,在最嘈杂的环境中也能准确识别语音,同时保持低延迟。与传统模型逐个Token处理不同,Drax可以并行输出整个Token序列,运行速度比竞争对手快达32倍。
Q2:Drax与OpenAI的Whisper和阿里巴巴的Qwen2相比有何优势?
A:在准确性方面,Drax在英语基准测试中的平均词错误率为7.4%,略优于Whisper-large-v3的7.6%。在速度方面,Drax比现有模型快达32倍。Whisper虽然准确但处理速度慢,难以应对长时间音频;Qwen2速度快但准确性不足。Drax成功解决了这一矛盾,在保持高准确性的同时实现了高速处理。
Q3:普通用户如何使用Drax模型?
A:aiOla已经在GitHub和Hugging Face平台上以开源许可证发布了Drax模型,提供三种不同规模的版本:轻量级Flash版本、中等规模模型和全规模基础模型。用户可以根据设备性能选择合适的版本,既可以在低功耗设备上运行,也可以在云端大规模部署。开源发布旨在促进社区的进一步研究和协作。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。