aiOla发布Drax模型，在噪音环境中实现可靠的AI语音识别

人工智能初创公司aiOla推出基于流匹配训练技术的语音AI模型Drax，挑战OpenAI和阿里巴巴等巨头。该模型重新定义语音算法训练方式，能在嘈杂环境中准确识别语音，兼顾速度与准确性。相比OpenAI的Whisper和阿里巴巴Qwen2，Drax采用并行流处理技术，速度提升32倍，词错误率仅7.4%。该模型已在GitHub开源，提供三种规模版本。

人工智能创业公司aiOla表示，它已准备好在语音识别领域与OpenAI集团和阿里巴巴控股等巨头展开竞争，推出了一款基于流匹配训练技术的新型语音AI模型。

这款新模型被称为Drax，它重新定义了AI语音算法的训练方式，能够更好地捕捉真实环境中语音的细微差别。据该创业公司介绍，这使得该模型能够消除当今最佳语音模型的延迟和不准确性。该公司声称，Drax能够在最嘈杂的环境中识别口语单词，其准确性和低延迟性能都超越了以往任何产品——包括OpenAI的Whisper和阿里巴巴的Qwen2。

该创业公司表示，其目标是变革AI驱动的语音识别技术，使其足够可靠，能够在日常生活和商业环境中使用。目前，现有的AI模型还无法很好地满足这一需求，因为它们的训练方式意味着必须在速度或性能之间做出牺牲。

据aiOla介绍，OpenAI的Whisper表现令人印象深刻，但其准确性源于逐个Token处理语音的方式，这种方式太慢，在许多情况下无法发挥实用价值。虽然对于录制简短笔记或听写很有用，但Whisper难以跟上长篇音频，比如长达一小时的办公室会议或可能拖延很久的复杂客户通话。

为了提高语音识别的速度，OpenAI的一些竞争对手转而研究使用基于扩散的模型，这种模型可以同时处理多个Token。阿里巴巴是这一领域的领导者之一，其Qwen2系统比Whisper快得多，但在准确性方面难以匹敌。部分问题在于，它是在干净、理想化的数据上训练的，而不是在真实环境中听到的嘈杂且不可预测的语音上训练，这些语音可能会在一定程度上被背景中的窃窃私语或嘈杂的办公室环境所淹没。

基于并行流处理

通过Drax，aiOla表示已经找到了一种训练语音识别系统的新颖技术，最终能够在速度和准确性之间取得正确的平衡。与试图从随机噪音中提炼图片的扩散模型类似，Drax试图从嘈杂的表示中重构人类语音。

训练过程涉及一个三步概率路径，首先从无意义的噪音开始，然后过渡到"类似语音"但仍不完美的中间状态。这使Drax接触到现实世界中发生的现实、声学上合理的错误，提高了它在背景噪音中理解语音的能力，包括带口音的语音。最后，它将收敛到清晰正确的转录文本。

AI副总裁Gil Hetz表示，在语音技术的最关键应用中，不允许出现任何错误。例如，如果AI聊天机器人无法理解人们试图告诉它的内容，公司就无法使用AI聊天机器人来处理客户支持。它需要在所有情况下都可靠的技术。

"这就是为什么Drax是如此重大的突破，"他说。"它结合了准确性和速度，没有妥协，能够处理真实世界的语音，无论背景噪音、口音或术语如何。"

虽然OpenAI的Whisper和大多数其他自动语音识别模型按顺序处理口语单词，一次预测一个Token，但Drax可以并行输出整个Token序列，一次性捕捉整个对话。该公司称这是训练语音模型的"并行、基于流的方法"，成功消除了延迟，同时防止了在较长转录过程中发生的复合错误。

该创业公司认为Drax是一个重大发展，因为语音是迄今为止最自然、最高效的数据输入媒介，很可能成为人类与机器沟通的默认方式。目前这种情况尚未发生，因为AI转录无法跟上节奏。但Drax承诺会有所不同。

"我们正在缩小这一差距，使语音技术在大规模应用中真正实用，"aiOla总裁Amir Haramty说。"这就是为什么推进语音识别如此重要——这是企业的未来。"

开源发布

该创业公司表示，它正在GitHub和Hugging Face上以宽松的开源许可证提供Drax，有三种模型规模可供选择。它们包括轻量级Flash版本、中等规模模型和全规模基础模型，因此可以在处理能力最小的低功耗设备上运行，或者在云端大规模运行。

"通过开源，我们希望激发社区的进一步发现和协作，"aiOla首席科学家Yossi Keshet说。

与模型一起，aiOla发布了显示Drax与主要竞争对手性能对比的研究。该公司称，在英语基准测试中，Drax的平均词错误率为7.4%，领先于OpenAI的Whisper-large-v3，后者达到了7.6%。该公司表示，它在各种选定数据集上也优于Whisper和阿里巴巴的Qwen2-audio，同时运行速度快达32倍。在法语、德语、中文和西班牙语基准测试中，它保持了相当或更好的准确性，同时保持了相似的性能水平。

该创业公司最终希望看到Drax在企业中得到广泛采用，并以语音速度运行几乎任何业务流程。它设想了一个世界，其中AI智能体能够理解自然语言命令并将其转换为结构化数据和现实世界的任务执行，即使在嘈杂且充满术语的环境中也是如此。

Q&A

Q1：Drax语音识别模型有什么特别之处？

A：Drax是aiOla公司开发的AI语音识别模型，采用了基于流匹配的新型训练技术。它能够在速度和准确性之间取得完美平衡，在最嘈杂的环境中也能准确识别语音，同时保持低延迟。与传统模型逐个Token处理不同，Drax可以并行输出整个Token序列，运行速度比竞争对手快达32倍。

Q2：Drax与OpenAI的Whisper和阿里巴巴的Qwen2相比有何优势？

A：在准确性方面，Drax在英语基准测试中的平均词错误率为7.4%，略优于Whisper-large-v3的7.6%。在速度方面，Drax比现有模型快达32倍。Whisper虽然准确但处理速度慢，难以应对长时间音频；Qwen2速度快但准确性不足。Drax成功解决了这一矛盾，在保持高准确性的同时实现了高速处理。

Q3：普通用户如何使用Drax模型？

A：aiOla已经在GitHub和Hugging Face平台上以开源许可证发布了Drax模型，提供三种不同规模的版本：轻量级Flash版本、中等规模模型和全规模基础模型。用户可以根据设备性能选择合适的版本，既可以在低功耗设备上运行，也可以在云端大规模部署。开源发布旨在促进社区的进一步研究和协作。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

aiOla发布Drax模型，在噪音环境中实现可靠的AI语音识别

来源：SiliconANGLE

2025

11/07

08:15

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

Lemony开源动态路由工具可削减85%AI成本

Vast Data与CoreWeave深化合作，强化AI数据服务基础设施

Google推出Ironwood TPU和Axion实例满足AI推理需求激增

谷歌Ironwood TPU对英伟达构成超预期威胁

Laude研究所宣布首批"弹弓"AI资助计划获奖名单

生成式AI是否增强左脑削弱右脑真相探究

微软推出 Elevate 计划助力阿联酋AI雄心

思科升级企业网络架构应对AI时代需求

蚂蚁数科Agentar入选互联网之光博览会十大首发成果

谷歌地图接入Gemini AI 打造全知智能助手

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: