近年来,语音识别模型的准确性不断提高。然而,这些模型往往是在理想条件下构建和评估的——安静的房间、清晰的音频和通用词汇。对企业而言,现实世界的音频环境要复杂得多。
这正是以色列初创公司 aiOla 今天推出 Jargonic 所要解决的问题。Jargonic 是一款专为企业使用而设计的自动语音识别 (ASR) 系统。
Jargonic 是一个全新的语音转文本模型,无需大量再训练或微调就能处理专业术语、背景噪音和各种口音。
aiOla 人工智能副总裁 Gill Hetz 表示:"我们的模型聚焦于语音识别中的三大挑战:专业术语、背景噪音和口音。我们构建的模型能够以零样本方式理解特定行业术语,应对嘈杂环境,并支持广泛的口音。"
Jargonic 现已通过 aiOla 企业平台的 API 提供服务,定位为制造业、物流、金融服务和医疗保健等行业的企业级 ASR 解决方案。
从产品优先到 AI 优先
Jargonic 的推出标志着 aiOla 公司战略重点的转变。根据公司领导层表示,团队重新定义了其方针,将 AI 研究和部署作为优先事项。
aiOla 首席技术和产品官 Assaf Asbag 表示:"当我来到这里时,我看到一个令人惊叹的产品公司,它在先进的 AI 能力方面投入巨大,但主要以帮助人们填写表格而闻名。我们转变了视角,从一个具有 AI 能力的产品公司变成了一个拥有优秀产品的 AI 公司。"
Asbag 补充道:"我们决定向世界开放我们的能力。我们开发了 API,现在不再局限于在产品内为企业提供服务,而是让我们的企业级、稳固可靠的模型面向所有人。"
专业术语识别,零样本适应
Jargonic 的一个突出特点是其处理专业词汇的方法。语音识别系统通常在遇到标准训练数据中不存在的领域特定术语时会遇到困难。Jargonic 通过专有的关键词识别系统解决了这个问题,实现零样本适应——企业只需提供术语列表,无需额外训练。
在基准测试中,Jargonic 在四个主要英语学术数据集上的平均词错率 (WER) 为 5.91%,优于 Eleven Labs、Assembly AI、OpenAI 的 Whisper 和 Deepgram Nova-3 等竞品。
不过,该公司尚未公布与较新的多模态转录模型(如九天前发布的 OpenAI 的 GPT-4-transcribe)的具体性能对比。GPT-4-transcribe 在英语 WER 等基准测试中表现出色,仅为 2.46%。aiOla 声称其模型在识别特定商业术语方面仍然更胜一筹。
Jargonic 在专业金融术语方面达到了 89.3% 的召回率,在多语言术语识别方面持续优于其他产品,在五种语言中的准确率均超过 95%。
Asbag 解释说:"一旦涉及大量专业术语,识别准确率通常会下降 20%。但使用我们的零样本方法,只需列出重要关键词,准确率就能回升到 95%。这是我们独有的优势。"
这一功能旨在消除通常需要的耗时且资源密集的重新训练过程,使 ASR 系统能够快速适应特定行业。
为企业环境优化
Jargonic 的开发借鉴了多年为企业客户构建解决方案的经验。该模型经过超过一百万小时的转录语音训练,包括大量来自工业和商业环境的数据,确保在嘈杂的实际环境中保持稳健性。
Hetz 说:"我们的与众不同之处在于我们花了多年时间解决实际的企业问题。我们不仅针对播客或视频优化速度、准确性和处理复杂环境的能力,更重要的是针对嘈杂、混乱的现实工作场所。"
该模型的架构将关键词识别直接集成到转录过程中,使 Jargonic 即使在不可预测的音频条件下也能保持准确性。
语音优先的未来
对 aiOla 的领导层来说,Jargonic 是人机交互方式转变的一步。该公司认为语音识别不仅是一种商业工具,更是未来人机交互的重要接口。
Hetz 表示:"我们的愿景是,每个机器接口很快都将以语音为先。你可以与冰箱、吸尘器、任何机器对话——它们都会按照你的意愿行动。这就是我们正在构建的未来。"
Asbag 也表达了类似观点:"对话式 AI 将成为新的网络浏览器。机器开始理解我们,现在我们有理由与它们自然交互了。"
目前,aiOla 的重点仍然是企业市场。Jargonic 已通过 API 向企业客户开放,使他们能够将模型的语音识别功能集成到自己的工作流程、应用程序或面向客户的服务中。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。