近年来,语音识别模型的准确性不断提高。然而,这些模型往往是在理想条件下构建和评估的——安静的房间、清晰的音频和通用词汇。对企业而言,现实世界的音频环境要复杂得多。
这正是以色列初创公司 aiOla 今天推出 Jargonic 所要解决的问题。Jargonic 是一款专为企业使用而设计的自动语音识别 (ASR) 系统。
Jargonic 是一个全新的语音转文本模型,无需大量再训练或微调就能处理专业术语、背景噪音和各种口音。
aiOla 人工智能副总裁 Gill Hetz 表示:"我们的模型聚焦于语音识别中的三大挑战:专业术语、背景噪音和口音。我们构建的模型能够以零样本方式理解特定行业术语,应对嘈杂环境,并支持广泛的口音。"
Jargonic 现已通过 aiOla 企业平台的 API 提供服务,定位为制造业、物流、金融服务和医疗保健等行业的企业级 ASR 解决方案。
从产品优先到 AI 优先
Jargonic 的推出标志着 aiOla 公司战略重点的转变。根据公司领导层表示,团队重新定义了其方针,将 AI 研究和部署作为优先事项。
aiOla 首席技术和产品官 Assaf Asbag 表示:"当我来到这里时,我看到一个令人惊叹的产品公司,它在先进的 AI 能力方面投入巨大,但主要以帮助人们填写表格而闻名。我们转变了视角,从一个具有 AI 能力的产品公司变成了一个拥有优秀产品的 AI 公司。"
Asbag 补充道:"我们决定向世界开放我们的能力。我们开发了 API,现在不再局限于在产品内为企业提供服务,而是让我们的企业级、稳固可靠的模型面向所有人。"
专业术语识别,零样本适应
Jargonic 的一个突出特点是其处理专业词汇的方法。语音识别系统通常在遇到标准训练数据中不存在的领域特定术语时会遇到困难。Jargonic 通过专有的关键词识别系统解决了这个问题,实现零样本适应——企业只需提供术语列表,无需额外训练。
在基准测试中,Jargonic 在四个主要英语学术数据集上的平均词错率 (WER) 为 5.91%,优于 Eleven Labs、Assembly AI、OpenAI 的 Whisper 和 Deepgram Nova-3 等竞品。
不过,该公司尚未公布与较新的多模态转录模型(如九天前发布的 OpenAI 的 GPT-4-transcribe)的具体性能对比。GPT-4-transcribe 在英语 WER 等基准测试中表现出色,仅为 2.46%。aiOla 声称其模型在识别特定商业术语方面仍然更胜一筹。
Jargonic 在专业金融术语方面达到了 89.3% 的召回率,在多语言术语识别方面持续优于其他产品,在五种语言中的准确率均超过 95%。
Asbag 解释说:"一旦涉及大量专业术语,识别准确率通常会下降 20%。但使用我们的零样本方法,只需列出重要关键词,准确率就能回升到 95%。这是我们独有的优势。"
这一功能旨在消除通常需要的耗时且资源密集的重新训练过程,使 ASR 系统能够快速适应特定行业。
为企业环境优化
Jargonic 的开发借鉴了多年为企业客户构建解决方案的经验。该模型经过超过一百万小时的转录语音训练,包括大量来自工业和商业环境的数据,确保在嘈杂的实际环境中保持稳健性。
Hetz 说:"我们的与众不同之处在于我们花了多年时间解决实际的企业问题。我们不仅针对播客或视频优化速度、准确性和处理复杂环境的能力,更重要的是针对嘈杂、混乱的现实工作场所。"
该模型的架构将关键词识别直接集成到转录过程中,使 Jargonic 即使在不可预测的音频条件下也能保持准确性。
语音优先的未来
对 aiOla 的领导层来说,Jargonic 是人机交互方式转变的一步。该公司认为语音识别不仅是一种商业工具,更是未来人机交互的重要接口。
Hetz 表示:"我们的愿景是,每个机器接口很快都将以语音为先。你可以与冰箱、吸尘器、任何机器对话——它们都会按照你的意愿行动。这就是我们正在构建的未来。"
Asbag 也表达了类似观点:"对话式 AI 将成为新的网络浏览器。机器开始理解我们,现在我们有理由与它们自然交互了。"
目前,aiOla 的重点仍然是企业市场。Jargonic 已通过 API 向企业客户开放,使他们能够将模型的语音识别功能集成到自己的工作流程、应用程序或面向客户的服务中。
好文章,需要你的鼓励
最新调查显示,近半数CIO将AI采用和自动化提升列为未来五年的首要任务。超过三分之一的受访者将加强业务连续性和灾难恢复作为重点,同等比例的企业将人才技能发展列为优先事项。尽管AI投资成为焦点,但投资回报率仍不明朗,近三分之二的商业领袖估计AI投资回报率仅为50%或更低。
微软亚洲研究院与清华大学联合提出双向感知塑造技术,通过创新的两阶段训练方法解决AI视觉理解中的关键问题。该技术让AI学会正确聚焦重要视觉信息,避免被无关内容误导。仅用1.3万训练样本就在八个基准测试中平均提升8.2%性能,超越使用数十万样本的专门模型,为AI视觉推理能力提升开辟新路径。
红帽公司宣布收购伦敦AI公司Chatterbox Labs,该公司专注于模型测试和生成式AI护栏技术。此次收购将为红帽AI产品组合增加自动化AI风险评估、安全测试和治理功能。Chatterbox Labs的AI风险指标帮助企业验证数据和模型是否符合国际法规,提供模型无关的稳健性、公平性和可解释性测试。收购将增强红帽的AI安全能力,包括生成式AI护栏、模型透明度和预测性AI验证等功能。
上海交通大学研究团队开发了TimeBill框架,解决大语言模型在实时应用中的时间不确定性问题。该系统通过精确预测回答长度和执行时间,动态调整AI记忆管理策略,确保在规定时间内完成任务的同时保持回答质量。实验显示TimeBill在各种时间预算下都能实现最佳的完成率与性能平衡,为AI在自动驾驶、工业控制等安全关键领域的应用提供了重要技术支撑。