近年来,语音识别模型的准确性不断提高。然而,这些模型往往是在理想条件下构建和评估的——安静的房间、清晰的音频和通用词汇。对企业而言,现实世界的音频环境要复杂得多。
这正是以色列初创公司 aiOla 今天推出 Jargonic 所要解决的问题。Jargonic 是一款专为企业使用而设计的自动语音识别 (ASR) 系统。
Jargonic 是一个全新的语音转文本模型,无需大量再训练或微调就能处理专业术语、背景噪音和各种口音。
aiOla 人工智能副总裁 Gill Hetz 表示:"我们的模型聚焦于语音识别中的三大挑战:专业术语、背景噪音和口音。我们构建的模型能够以零样本方式理解特定行业术语,应对嘈杂环境,并支持广泛的口音。"
Jargonic 现已通过 aiOla 企业平台的 API 提供服务,定位为制造业、物流、金融服务和医疗保健等行业的企业级 ASR 解决方案。
从产品优先到 AI 优先
Jargonic 的推出标志着 aiOla 公司战略重点的转变。根据公司领导层表示,团队重新定义了其方针,将 AI 研究和部署作为优先事项。
aiOla 首席技术和产品官 Assaf Asbag 表示:"当我来到这里时,我看到一个令人惊叹的产品公司,它在先进的 AI 能力方面投入巨大,但主要以帮助人们填写表格而闻名。我们转变了视角,从一个具有 AI 能力的产品公司变成了一个拥有优秀产品的 AI 公司。"
Asbag 补充道:"我们决定向世界开放我们的能力。我们开发了 API,现在不再局限于在产品内为企业提供服务,而是让我们的企业级、稳固可靠的模型面向所有人。"
专业术语识别,零样本适应
Jargonic 的一个突出特点是其处理专业词汇的方法。语音识别系统通常在遇到标准训练数据中不存在的领域特定术语时会遇到困难。Jargonic 通过专有的关键词识别系统解决了这个问题,实现零样本适应——企业只需提供术语列表,无需额外训练。
在基准测试中,Jargonic 在四个主要英语学术数据集上的平均词错率 (WER) 为 5.91%,优于 Eleven Labs、Assembly AI、OpenAI 的 Whisper 和 Deepgram Nova-3 等竞品。
不过,该公司尚未公布与较新的多模态转录模型(如九天前发布的 OpenAI 的 GPT-4-transcribe)的具体性能对比。GPT-4-transcribe 在英语 WER 等基准测试中表现出色,仅为 2.46%。aiOla 声称其模型在识别特定商业术语方面仍然更胜一筹。
Jargonic 在专业金融术语方面达到了 89.3% 的召回率,在多语言术语识别方面持续优于其他产品,在五种语言中的准确率均超过 95%。
Asbag 解释说:"一旦涉及大量专业术语,识别准确率通常会下降 20%。但使用我们的零样本方法,只需列出重要关键词,准确率就能回升到 95%。这是我们独有的优势。"
这一功能旨在消除通常需要的耗时且资源密集的重新训练过程,使 ASR 系统能够快速适应特定行业。
为企业环境优化
Jargonic 的开发借鉴了多年为企业客户构建解决方案的经验。该模型经过超过一百万小时的转录语音训练,包括大量来自工业和商业环境的数据,确保在嘈杂的实际环境中保持稳健性。
Hetz 说:"我们的与众不同之处在于我们花了多年时间解决实际的企业问题。我们不仅针对播客或视频优化速度、准确性和处理复杂环境的能力,更重要的是针对嘈杂、混乱的现实工作场所。"
该模型的架构将关键词识别直接集成到转录过程中,使 Jargonic 即使在不可预测的音频条件下也能保持准确性。
语音优先的未来
对 aiOla 的领导层来说,Jargonic 是人机交互方式转变的一步。该公司认为语音识别不仅是一种商业工具,更是未来人机交互的重要接口。
Hetz 表示:"我们的愿景是,每个机器接口很快都将以语音为先。你可以与冰箱、吸尘器、任何机器对话——它们都会按照你的意愿行动。这就是我们正在构建的未来。"
Asbag 也表达了类似观点:"对话式 AI 将成为新的网络浏览器。机器开始理解我们,现在我们有理由与它们自然交互了。"
目前,aiOla 的重点仍然是企业市场。Jargonic 已通过 API 向企业客户开放,使他们能够将模型的语音识别功能集成到自己的工作流程、应用程序或面向客户的服务中。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。