近年来,语音识别模型的准确性不断提高。然而,这些模型往往是在理想条件下构建和评估的——安静的房间、清晰的音频和通用词汇。对企业而言,现实世界的音频环境要复杂得多。
这正是以色列初创公司 aiOla 今天推出 Jargonic 所要解决的问题。Jargonic 是一款专为企业使用而设计的自动语音识别 (ASR) 系统。
Jargonic 是一个全新的语音转文本模型,无需大量再训练或微调就能处理专业术语、背景噪音和各种口音。
aiOla 人工智能副总裁 Gill Hetz 表示:"我们的模型聚焦于语音识别中的三大挑战:专业术语、背景噪音和口音。我们构建的模型能够以零样本方式理解特定行业术语,应对嘈杂环境,并支持广泛的口音。"
Jargonic 现已通过 aiOla 企业平台的 API 提供服务,定位为制造业、物流、金融服务和医疗保健等行业的企业级 ASR 解决方案。
从产品优先到 AI 优先
Jargonic 的推出标志着 aiOla 公司战略重点的转变。根据公司领导层表示,团队重新定义了其方针,将 AI 研究和部署作为优先事项。
aiOla 首席技术和产品官 Assaf Asbag 表示:"当我来到这里时,我看到一个令人惊叹的产品公司,它在先进的 AI 能力方面投入巨大,但主要以帮助人们填写表格而闻名。我们转变了视角,从一个具有 AI 能力的产品公司变成了一个拥有优秀产品的 AI 公司。"
Asbag 补充道:"我们决定向世界开放我们的能力。我们开发了 API,现在不再局限于在产品内为企业提供服务,而是让我们的企业级、稳固可靠的模型面向所有人。"
专业术语识别,零样本适应
Jargonic 的一个突出特点是其处理专业词汇的方法。语音识别系统通常在遇到标准训练数据中不存在的领域特定术语时会遇到困难。Jargonic 通过专有的关键词识别系统解决了这个问题,实现零样本适应——企业只需提供术语列表,无需额外训练。
在基准测试中,Jargonic 在四个主要英语学术数据集上的平均词错率 (WER) 为 5.91%,优于 Eleven Labs、Assembly AI、OpenAI 的 Whisper 和 Deepgram Nova-3 等竞品。
不过,该公司尚未公布与较新的多模态转录模型(如九天前发布的 OpenAI 的 GPT-4-transcribe)的具体性能对比。GPT-4-transcribe 在英语 WER 等基准测试中表现出色,仅为 2.46%。aiOla 声称其模型在识别特定商业术语方面仍然更胜一筹。
Jargonic 在专业金融术语方面达到了 89.3% 的召回率,在多语言术语识别方面持续优于其他产品,在五种语言中的准确率均超过 95%。
Asbag 解释说:"一旦涉及大量专业术语,识别准确率通常会下降 20%。但使用我们的零样本方法,只需列出重要关键词,准确率就能回升到 95%。这是我们独有的优势。"
这一功能旨在消除通常需要的耗时且资源密集的重新训练过程,使 ASR 系统能够快速适应特定行业。
为企业环境优化
Jargonic 的开发借鉴了多年为企业客户构建解决方案的经验。该模型经过超过一百万小时的转录语音训练,包括大量来自工业和商业环境的数据,确保在嘈杂的实际环境中保持稳健性。
Hetz 说:"我们的与众不同之处在于我们花了多年时间解决实际的企业问题。我们不仅针对播客或视频优化速度、准确性和处理复杂环境的能力,更重要的是针对嘈杂、混乱的现实工作场所。"
该模型的架构将关键词识别直接集成到转录过程中,使 Jargonic 即使在不可预测的音频条件下也能保持准确性。
语音优先的未来
对 aiOla 的领导层来说,Jargonic 是人机交互方式转变的一步。该公司认为语音识别不仅是一种商业工具,更是未来人机交互的重要接口。
Hetz 表示:"我们的愿景是,每个机器接口很快都将以语音为先。你可以与冰箱、吸尘器、任何机器对话——它们都会按照你的意愿行动。这就是我们正在构建的未来。"
Asbag 也表达了类似观点:"对话式 AI 将成为新的网络浏览器。机器开始理解我们,现在我们有理由与它们自然交互了。"
目前,aiOla 的重点仍然是企业市场。Jargonic 已通过 API 向企业客户开放,使他们能够将模型的语音识别功能集成到自己的工作流程、应用程序或面向客户的服务中。
好文章,需要你的鼓励
机器人和自动化工具已成为云环境中最大的安全威胁,网络犯罪分子率先应用自动化决策来窃取凭证和执行恶意活动。自动化攻击显著缩短了攻击者驻留时间,从传统的数天减少到5分钟内即可完成数据泄露。随着大语言模型的发展,"黑客机器人"将变得更加先进。企业面临AI快速采用压力,但多数组织错误地关注模型本身而非基础设施安全。解决方案是将AI工作负载视为普通云工作负载,应用运行时安全最佳实践。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
面对心理健康专业人士短缺问题,谷歌、麦肯锡和加拿大重大挑战组织联合发布《心理健康与AI现场指南》,提出利用AI辅助任务分担模式。该指南构建了包含项目适应、人员选择、培训、分配、干预和完成六个阶段的任务分担模型,AI可在候选人筛选、培训定制、客户匹配、预约调度和治疗建议等环节发挥作用。该方法通过将部分治疗任务分配给经过培训的非专业人员,并运用AI进行管理支持,有望缓解治疗服务供需失衡问题。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。