人工智能创业公司aiOla表示,它已准备好在语音识别领域与OpenAI集团和阿里巴巴控股等巨头展开竞争,推出了一款基于流匹配训练技术的新型语音AI模型。
这款新模型被称为Drax,它重新定义了AI语音算法的训练方式,能够更好地捕捉真实环境中语音的细微差别。据该创业公司介绍,这使得该模型能够消除当今最佳语音模型的延迟和不准确性。该公司声称,Drax能够在最嘈杂的环境中识别口语单词,其准确性和低延迟性能都超越了以往任何产品——包括OpenAI的Whisper和阿里巴巴的Qwen2。
该创业公司表示,其目标是变革AI驱动的语音识别技术,使其足够可靠,能够在日常生活和商业环境中使用。目前,现有的AI模型还无法很好地满足这一需求,因为它们的训练方式意味着必须在速度或性能之间做出牺牲。
据aiOla介绍,OpenAI的Whisper表现令人印象深刻,但其准确性源于逐个Token处理语音的方式,这种方式太慢,在许多情况下无法发挥实用价值。虽然对于录制简短笔记或听写很有用,但Whisper难以跟上长篇音频,比如长达一小时的办公室会议或可能拖延很久的复杂客户通话。
为了提高语音识别的速度,OpenAI的一些竞争对手转而研究使用基于扩散的模型,这种模型可以同时处理多个Token。阿里巴巴是这一领域的领导者之一,其Qwen2系统比Whisper快得多,但在准确性方面难以匹敌。部分问题在于,它是在干净、理想化的数据上训练的,而不是在真实环境中听到的嘈杂且不可预测的语音上训练,这些语音可能会在一定程度上被背景中的窃窃私语或嘈杂的办公室环境所淹没。
基于并行流处理
通过Drax,aiOla表示已经找到了一种训练语音识别系统的新颖技术,最终能够在速度和准确性之间取得正确的平衡。与试图从随机噪音中提炼图片的扩散模型类似,Drax试图从嘈杂的表示中重构人类语音。
训练过程涉及一个三步概率路径,首先从无意义的噪音开始,然后过渡到"类似语音"但仍不完美的中间状态。这使Drax接触到现实世界中发生的现实、声学上合理的错误,提高了它在背景噪音中理解语音的能力,包括带口音的语音。最后,它将收敛到清晰正确的转录文本。
AI副总裁Gil Hetz表示,在语音技术的最关键应用中,不允许出现任何错误。例如,如果AI聊天机器人无法理解人们试图告诉它的内容,公司就无法使用AI聊天机器人来处理客户支持。它需要在所有情况下都可靠的技术。
"这就是为什么Drax是如此重大的突破,"他说。"它结合了准确性和速度,没有妥协,能够处理真实世界的语音,无论背景噪音、口音或术语如何。"
虽然OpenAI的Whisper和大多数其他自动语音识别模型按顺序处理口语单词,一次预测一个Token,但Drax可以并行输出整个Token序列,一次性捕捉整个对话。该公司称这是训练语音模型的"并行、基于流的方法",成功消除了延迟,同时防止了在较长转录过程中发生的复合错误。
该创业公司认为Drax是一个重大发展,因为语音是迄今为止最自然、最高效的数据输入媒介,很可能成为人类与机器沟通的默认方式。目前这种情况尚未发生,因为AI转录无法跟上节奏。但Drax承诺会有所不同。
"我们正在缩小这一差距,使语音技术在大规模应用中真正实用,"aiOla总裁Amir Haramty说。"这就是为什么推进语音识别如此重要——这是企业的未来。"
开源发布
该创业公司表示,它正在GitHub和Hugging Face上以宽松的开源许可证提供Drax,有三种模型规模可供选择。它们包括轻量级Flash版本、中等规模模型和全规模基础模型,因此可以在处理能力最小的低功耗设备上运行,或者在云端大规模运行。
"通过开源,我们希望激发社区的进一步发现和协作,"aiOla首席科学家Yossi Keshet说。
与模型一起,aiOla发布了显示Drax与主要竞争对手性能对比的研究。该公司称,在英语基准测试中,Drax的平均词错误率为7.4%,领先于OpenAI的Whisper-large-v3,后者达到了7.6%。该公司表示,它在各种选定数据集上也优于Whisper和阿里巴巴的Qwen2-audio,同时运行速度快达32倍。在法语、德语、中文和西班牙语基准测试中,它保持了相当或更好的准确性,同时保持了相似的性能水平。
该创业公司最终希望看到Drax在企业中得到广泛采用,并以语音速度运行几乎任何业务流程。它设想了一个世界,其中AI智能体能够理解自然语言命令并将其转换为结构化数据和现实世界的任务执行,即使在嘈杂且充满术语的环境中也是如此。
Q&A
Q1:Drax语音识别模型有什么特别之处?
A:Drax是aiOla公司开发的AI语音识别模型,采用了基于流匹配的新型训练技术。它能够在速度和准确性之间取得完美平衡,在最嘈杂的环境中也能准确识别语音,同时保持低延迟。与传统模型逐个Token处理不同,Drax可以并行输出整个Token序列,运行速度比竞争对手快达32倍。
Q2:Drax与OpenAI的Whisper和阿里巴巴的Qwen2相比有何优势?
A:在准确性方面,Drax在英语基准测试中的平均词错误率为7.4%,略优于Whisper-large-v3的7.6%。在速度方面,Drax比现有模型快达32倍。Whisper虽然准确但处理速度慢,难以应对长时间音频;Qwen2速度快但准确性不足。Drax成功解决了这一矛盾,在保持高准确性的同时实现了高速处理。
Q3:普通用户如何使用Drax模型?
A:aiOla已经在GitHub和Hugging Face平台上以开源许可证发布了Drax模型,提供三种不同规模的版本:轻量级Flash版本、中等规模模型和全规模基础模型。用户可以根据设备性能选择合适的版本,既可以在低功耗设备上运行,也可以在云端大规模部署。开源发布旨在促进社区的进一步研究和协作。
好文章,需要你的鼓励
微软正式确认配置管理器将转为年度发布模式,并将Intune作为主要创新重点。该变化将于2026年秋季生效,在此之前还有几个版本发布。微软表示此举是为了与Windows客户端安全和稳定性节奏保持一致,优先确保安全可靠的用户体验。配置管理器将专注于安全性、稳定性和长期支持,而所有新功能创新都将在云端的Intune中进行。
这项由圣母大学和IBM研究院联合开展的研究,开发出了名为DeepEvolve的AI科学助手系统,能够像人类科学家一样进行深度文献研究并将创新想法转化为可执行的算法程序。该系统突破了传统AI要么只能改进算法但缺乏创新、要么只能提出想法但无法实现的局限,在化学、生物学、数学等九个科学领域的测试中都实现了显著的算法性能提升,为AI辅助科学发现开辟了新的道路。
人工智能初创公司aiOla推出基于流匹配训练技术的语音AI模型Drax,挑战OpenAI和阿里巴巴等巨头。该模型重新定义语音算法训练方式,能在嘈杂环境中准确识别语音,兼顾速度与准确性。相比OpenAI的Whisper和阿里巴巴Qwen2,Drax采用并行流处理技术,速度提升32倍,词错误率仅7.4%。该模型已在GitHub开源,提供三种规模版本。
卡内基梅隆大学研究团队通过3331次大规模实验,系统揭示了代码训练如何提升AI推理能力。研究发现,代码的结构特性比语义内容更重要,适当的抽象形式(如伪代码)可以达到与原始代码相同的效果。不同编程语言产生差异化影响:低抽象语言有利于数学推理,Python更适合自然语言任务。这些发现为AI训练数据的科学化设计提供了重要指导。