元宇宙推出支持36种语言的"智慧"即时语音翻译模型

Meta公司开发了一种机器学习模型SEAMLESSM4T，能够实现36种语言之间的近即时语音翻译。该模型采用创新方法，利用互联网音频片段避免了繁琐的数据标注。这一突破性技术有望简化多语言交流，但仍需解决噪音环境、口音等挑战，并关注技术可能带来的偏见问题。

Meta 开发出一款机器学习模型，其研究人员称该模型可以在近乎实时的情况下在约 36 种语言之间进行语音到语音的翻译。

这个名为 SEAMLESSM4T 的基础模型让人联想到《银河系漫游指南》中的巴别鱼，它通过利用互联网音频片段，巧妙地避开了繁琐的数据标注过程，在 450 万小时的人类语音记录上进行训练。

Facebook 母公司的研究团队今天在《自然》杂志上发表论文称，这个相对开放的模型可以作为其他应用程序的基础，支持"在各种场景下实现多语言即时交流"。

爱沙尼亚塔林理工大学语音处理教授 Tanel Alumae 在随附文章中表示，该模型在包含 450 万小时多语言口语音频的海量数据集上进行预训练，以帮助建立数据模式，"这使得模型可以在无需大量定制训练数据的情况下，更容易针对特定任务进行微调"。

研究团队还使用了一种新的自动化技术来避免标注大量训练数据。

Alumae 解释说："SEAMLESS 团队最巧妙的策略之一是从互联网上'挖掘'跨语言对齐的训练数据对 — 比如一种语言的音频片段与另一种语言的字幕相匹配。从一些已知可靠的数据开始，作者训练模型识别两个内容片段（如视频片段和相应字幕）在含义上是否真正匹配。"

这种技术帮助 Meta 的无缝通信团队收集了约 443,000 小时带有匹配文本的音频，并对齐了约 30,000 小时的语音对，然后用于进一步训练模型。Alumae 赞扬了 Meta 对模型的开放程度 - 这与可用于创建其他应用程序的 Llama 系列大语言模型类似。"对于缺乏从头构建这些模型所需大量计算资源的研究人员来说，这种开放程度是巨大的优势。"

然而，也有人批评 LLaMA-3 的"明显非开放使用限制"。

据称，Meta 的新模型还可以将语音翻译成多达 100 种语言的文本。Alumae 指出，虽然这个数字令人印象深刻，但与世界上约 7,000 种语言相比还相差甚远。

他说："该工具在人类相对容易处理的许多情况下仍然存在困难 — 例如在嘈杂环境中的对话或口音很重的人之间的对话。不过，作者利用真实世界数据的方法将为开发能够媲美科幻作品的语音技术开辟一条有前途的道路。"

康奈尔大学信息科学系的 Allison Koenecke 在第二篇随附文章中指出，虽然这一突破可能代表着比人工更高效和更具成本效益的转录和翻译方法，但"必须要理解这些技术失效的方式 — 对某些群体的影响尤其不成比例"。

她说："未来的工作必须确保语音技术研究人员能够改善性能差异，并让用户充分了解这些模型相关的潜在利益和危害。"在论文中，Meta 描述了如何衡量语言的"毒性"和性别偏见。

研究人员还表示，自然语音"包含一系列韵律 — 节奏、重音、语调或声调 — 和情感成分，这些都值得进一步研究。"

他们补充说："要创建感觉自然和有机的语音到语音翻译系统，应该将更多研究投入到保留表现力的输出生成中。此外，要完全实现巴别鱼的愿景，需要在低延迟语音翻译研究方面进行更深入的投入。开发能够流式处理的系统（即在输入句子呈现时进行增量翻译）可能会增加这些系统在各种机构环境中的采用率。我们希望 SEAMLESSM4T 能为这两个研究领域开辟新的可能性。"

来源：The Register

0赞

好文章，需要你的鼓励

元宇宙推出支持36种语言的"智慧"即时语音翻译模型

来源：The Register

2025

01/17

16:46

分享

点赞

始于Token，不止于Token

埃森哲投资Profitmind，押注AI智能体变革零售业

CES 2026：日立与英伟达、谷歌云、Nozomi Networks达成合作协议

2026年科技行业多元化发展前景与挑战预测

智能体AI推动云安全策略根本性变革

Salesforce推出AI能力框架助力企业数字化转型

大众汽车牵手高通打造智能网联座舱体验

Ruby 4.0.0发布：引入ZJIT编译器和Ruby Box隔离技术

Meta签约三家核能公司为AI数据中心提供6.6吉瓦电力

大多数开发者不信任AI生成代码却不检查

大规模数据中心安全防护中人员因素的关键作用

HPE OneView严重漏洞遭野外攻击利用

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: