你是否曾经尝试向朋友语音输入短信,或者向语音助手提问,却发现手机完全误解了你的意思?如果你在过去十年中使用过任何主流智能手机软件,很可能遇到过这种情况。通常,这是因为这些系统无法在不完美的环境中识别语音。而现实世界中的大多数时候,环境都不够完美。
然而,IBM Granite语音模型的新应用显示,即使在嘈杂和困难的场景中,该模型理解人类语音的能力也远超其他主要语言模型。这有潜力为大语言模型开启无数新的应用场景,其中语音是主要输入方式。
澳大利亚皇家飞行医生服务
一个例子可以在澳大利亚上空找到。澳大利亚皇家飞行医生服务(RFDS)是一个非营利组织,在全国范围内运营,为远离城市中心的人们提供重要的医疗专业人员和服务。澳大利亚的主要人口中心主要位于沿海地区,远离中部干旱的平原和内陆地区,但仍有人生活和工作在偏远地区。RFDS的小型飞机可以到达生活在偏远社区的人们,以及在内陆地区采矿场或农场工作、需要紧急医疗护理或地区护理诊所的人员。
与任何现代医疗程序一样,RFDS的临床医生会记录他们对患者所做的一切,既为了问责制,也为了未来的护理考虑。每次从隔间取出一袋生理盐水,或抽取一瓶吗啡时,在拥挤而嘈杂的铝制机舱内的临床医生都会将所有这些信息记录到平板电脑上,同时记录患者护理笔记。这些笔记成为电子健康记录的一部分,伴随患者整个护理过程。
通常,临床医生在完成对患者的治疗后,会把他们为患者所做的一切都打字记录下来。但对于许多紧急医疗情况下的患者来说,在这些飞行中没有太多空闲时间——他们可能需要在运输过程中持续监护或关注。IBM客户工程部门在RFDS组织的黑客马拉松中开发了一个原型,使用语音和视觉AI将患者信息简化到电子健康记录应用程序中。IBM团队发现,他们的解决方案将临床医生每位患者的管理时间从28分钟减少到仅2分钟。这个自动化系统确保了临床医生记录的准确性,并给了他们更多时间专注于关键的患者护理。
在紧急情况下,临床医生对患者的专注至关重要,这样的自动化特别有价值。机上可能有一到两名飞行临床医生,每次飞行最多处理两名患者。记录他们对每位患者所做的工作会占用实际护理的时间。
语音识别技术的挑战
RFDS要求IBM客户工程部门演示如何安全地使用AI来改善患者护理和减轻飞行临床医生的工作负担。通过IBM提出的解决方案,临床医生不必等待照顾患者之间的空闲时间,也不会冒着忘记记录某些内容的风险。但小型飞机以噪音大著称——是否有模型足够强大,能够从引擎轰鸣声中识别出临床医生的声音并有效转录?"它基本上就是天空中的一个小雪茄管,"IBM Research的技术产品经理菲尔·唐尼(Phil Downey)说,他与客户工程团队和RFDS合作。
IBM Research和客户工程部门开始测试IBM自己的IBM Granite-Speech,这是一个专门针对语音识别调优的模型,来构建他们的想法。他们围绕它创建了一个简单的工作流程,用户录制音频,发送到运行Granite模型的转录系统(在vLLM推理引擎上),然后传到一个界面,用户或其他人可以阅读说话内容。团队发现,Granite模型特别擅长从RFDS在高空飞行飞机时录制的音频中识别出飞行临床医生和飞行员的声音。这些录音包含了飞行飞机时通常存在的所有背景引擎噪音和静电。录音没有使用任何噪音消除技术,飞机也没有进行任何隔音处理。
模型性能测试
IBM团队测试了他们的系统在云端运行,使用完整尺寸的Granite-Speech模型,以及在非常普通的硬件上运行。使用2B参数的较小版本模型,配合五年前的Intel i9-12900K CPU和三年前的NVIDIA GeForce RTX 4060 Ti,在运行Windows 11的计算机上,他们轻松地在这个硬件上本地运行模型。唐尼和队友斯里坎斯·科内鲁(Srikanth Koneru)注意到,最多时,本地运行的小型2B模型使用不到18GB内存和6GB GPU内存,在整个过程中CPU使用率不超过10%。
团队的测试表明,在RFDS的飞机上运行这样的系统是可能的。由于噪音,机上工作人员已经戴着带麦克风的耳机进行通信,并且在飞行中已经配备了平板电脑和计算机。从去年开始,澳大利亚政府规定,临床医生收集的所有病理报告都必须归档到My Health Record,即该国的电子健康记录系统中。
当其他IBM研究人员听说了与RFDS的合作后,他们想看看Granite在难以听清的环境中究竟有多强大。乔治·萨翁(George Saon),IBM Research AI语音策略的杰出研究科学家,复制了唐尼使用飞机录音的工作。与IBM Research语言技术总监路易斯·拉斯特拉斯(Luis Lastras)一起,两人将其他顶级AI公司主要模型的录音理解能力进行了比较,看看它们的表现如何。Granite模型理解临床医生录音的能力明显优于他们测试的任何其他模型,其他大多数模型只能识别零星的几个短语。
技术优势分析
当被问及为什么Granite模型比其他模型表现得更有效时,萨翁表示这是团队总体严格方法的一部分。"这只是我们训练模型方式的结果,"萨翁说。IBM客户可能使用语音识别模型的许多企业用例可能涉及音质较差的音频。无论是客服机器人听取信号不佳的客户语音,还是设施管理员试图在嘈杂的服务器室或工厂中提交报告,都有无数地方可能期望watsonx和Granite模型能够工作。
但这个模型并没有专门训练来处理这种空中任务。"Granite完全胜出,"拉斯特拉斯说。"这真的超出了分布范围——它从未为此进行过训练。"
Granite团队通过屏蔽训练数据的部分来训练许多模型;在这种情况下,这可能意味着训练数据中使用的音频录音中的部分单词被干扰或屏蔽,当模型选择正确的单词时,它会得到奖励。目标是让这些模型在不太理想的情况下更加稳健,同时不影响它们在声音质量良好时的工作方式。"语音识别不是一个已解决的问题,尽管每个人都认为这是理所当然的,"萨翁争辩道。"一旦你遇到嘈杂的地方,比如飞机、餐厅或有交叉谈话的汽车,就会出现问题——人们仍在努力解决这些问题。"
未来发展前景
澳大利亚的IBM客户工程部门和IBM Research正在与RFDS合作,将这个概念变为现实。团队认为,简单的补充可以使这个概念更加强大,比如让系统设置识别特定单词作为标志,将相关信息发送给合适的人员。唐尼说,团队设想医生与系统谈论他们已经给药的药物,并让转录报告的这部分直接发送到医院的药房部门,或者需要进行的额外治疗发送给主治医生。这将在下游处理,可能由接收医院的计算机在报告到达后处理。
这种场景只是Granite驱动的语音识别系统可以改变我们工作和生活方式的众多场景之一。任何人现在都可以在Hugging Face上尝试底层的开源模型。将这样的技术带到最偏远地区的潜在好处可能是巨大的。"如果我们能让它移动化,那就很有意义,"唐尼说。"在健康和其他行业的更广泛用例中,它有很大的用例价值。"
IBM Research已经在Hugging Face上发布了granite-4.0-1b-speech。它不仅是IBM迄今为止最小的基于大语言模型的ASR模型,而且也是目前在OpenASR英语语音识别准确性排行榜上排名第一的开放权重模型。它还引入了额外的语言支持以及通过简单提示进行关键词偏置,使开发人员能够轻松定制特定单词并扩展我们专业小模型的能力。
Q&A
Q1:IBM Granite语音模型在嘈杂环境中表现如何?
A:IBM Granite语音模型在嘈杂环境中的表现远超其他主要语言模型。在澳大利亚皇家飞行医生服务的飞机测试中,即使有引擎轰鸣和静电噪音,Granite模型仍能准确识别临床医生和飞行员的声音,而其他模型只能识别零星的几个短语。
Q2:Granite语音模型如何帮助医疗工作者提高效率?
A:通过语音自动转录,Granite模型将临床医生每位患者的记录时间从28分钟缩短到仅2分钟。这让医护人员不必在紧急情况下分心记录,可以将更多时间投入到关键的患者护理工作中,同时确保记录的准确性。
Q3:普通硬件能否运行Granite语音识别系统?
A:可以。IBM团队使用五年前的Intel i9-12900K CPU和三年前的NVIDIA GeForce RTX 4060 Ti在Windows 11上成功运行了2B参数版本的Granite模型,最多只使用18GB内存和6GB GPU内存,CPU使用率不超过10%,证明普通硬件完全可以支持该系统。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。