毛利语文字转语音模型：拒绝科技巨头主导，守护语言主权

新西兰怀卡托大学研究人员开发了一款面向毛利语特定方言的文本转语音系统，旨在实现原住民对本族语言AI技术的自主掌控。该项目仅使用不足8小时的录音数据，采用音素输入与开源神经网络架构Piper，最终词错率达到6.78%。与大型科技公司未经授权抓取数据的做法不同，该项目强调数据主权与社区所有权，为全球少数民族语言AI开发提供了可复制的范本。

新西兰以壮丽的自然景观著称，但这片土地上的语言生态同样引人注目。在该国三种官方语言中，毛利语（te reo Māori）是唯一的本土原住民语言。尽管目前仅有约4.3%的人口能够流利使用毛利语，但新西兰国家统计数据显示，约30%的新西兰人能够说出超过几个词汇或短语的毛利语。

然而，当你要求ChatGPT生成毛利语文本时，它能够流畅地以学校教学和国家电视台播出的标准毛利语形式作答。Claude和Perplexity同样具备这一能力。这些令人印象深刻的语言表现，建立在毛利社区和学术机构所产出的文字与音频素材之上——这些内容在未经授权的情况下被抓取采集，在新西兰境外完成处理，最终通过大型科技公司所拥有的界面呈现给用户。对于毛利人而言，这是一个不可忽视的问题。

"海外的这些公司拥有足够的资源来开发性能优良的AI模型，"怀卡托大学副教授、该校AI研究所联合所长Te Taka Keegan说，"但他们在未征得我们任何意见的情况下抓取了所有数据，而我们对输出结果毫无所有权。我们的语言是传承知识最重要的载体……然而，我们却眼睁睁地看着在奥特亚罗瓦（新西兰）以外开发的技术，对这些知识的传播握有越来越大的控制权。"

出于对Keegan所称的"数字主权系统"的迫切需求，他与当时还是硕士生的Kingsley Eng共同着手开发一套高保真合成语音系统，即针对毛利语特定方言的文字转语音系统。在整个开发过程中，Keegan和Eng的每一个技术决策都受到一个核心约束的驱动——这一约束在AI领域通常被忽视：这套合成语音系统及其所有构建要素，必须始终归属于说该方言的社群所有。他们期望，这一成果能够为全球其他少数语言社区提供可复制的参考范本。

毛利语的语音挑战

AI语音模型的开发主要以英语为主，将这些模型应用于其他语言时往往会产生错误。毛利语具有一些特殊的语言学特征，例如元音时长的重要性，这给AI语音系统带来了额外挑战。

举例而言，"蛋糕"（keke）、"腋窝"（kēkē）和"嘎吱作响"（kekē）这三个词，仅在元音发音时长上有所不同。复合字母（由两个字母组合成一个音）在毛利语中同样常见，其发音与英语中的规则也不同——例如"wh"通常发"f"的音。在毛利语中，发音不准确会直接改变词语的含义。

此外，与英语或中文相比，毛利语被视为低资源语言，因为可供训练使用的文本、数据集或录音等数字化资料相对匮乏。为解决这一问题，Keegan招募了翻译、教育者兼语言导师Ngaringi Katipa，由她以知情同意的方式为系统提供真实人声。

"我们专注于本地方言Waikato-Maniapoto，因为正是在方言中，才能看到语言真正的美。方言将语言与特定地域和身份认同紧密相连，"Keegan说道。

"我们最初录制了Ngaringi朗读书籍段落的内容，获得了4.5小时的数据，"现任职于精密工具制造商Extec的机器学习工程师Eng表示，"后来，我们根据Te Taka的兄弟Peter——一位毛利语言学专家——提供的详细词句列表，进一步扩充了数据集，涵盖了许多非常罕见的词汇。"经过清理和处理，最终共积累了7小时45分钟的录音素材。

技术方案选择

构建文字转语音系统通常有两种数据输入方式：一是基于字符的方式，将原始字母直接输入模型；二是基于音素的方式，在训练开始前先将文本转换为音标表示，即描述每个词的发音方式。

"我们两种方式都尝试了，但音素方法明显更优，"Eng说，"一开始就向模型提供音素规则，相当于给了它一个先发优势。"音素能够有效告知模型特定字母组合的发音方式，"从而省去部分学习过程"。为了为模型提供音素规则，研究人员使用了一款名为eSpeak-NG的开源工具，该工具内置了毛利语规则的测试版本，研究人员在此基础上进行了进一步调整。

Eng测试了三种开源神经网络架构——Matcha-TTS、Tacotron2和Piper——用于训练并将录音转化为合成语音。其中，支持本地离线运行的Piper效果最佳，最终被选用于成品构建。

尽管所使用的高质量录音不足8小时——远低于训练文字转语音模型通常建议的数百小时数据量——最终生成的AI语音依然表现出色。文字转语音研究的主要评估指标为词错误率，数值越低代表准确率越高。Keegan和Eng开发的AI语音词错误率达到6.78%，按当前行业标准被评定为"良好"。

在整个开发过程中，一位专业的毛利语语言评估师对语音的自然度、发音准确性和表达力进行了持续评估。

研究人员还邀请了68位毛利语流利使用者分别聆听真人录音和合成语音，请他们辨别哪段是真人发音。结果显示，听众的正确识别率为65%。"我们对这个结果感到满意，因为其中一些听众是说话者的家庭成员——他们对她的声音非常熟悉，但仍有几位判断失误，"Keegan说。

所有权与社区归属

谷歌曾为怀卡托团队提供部分资金支持，但Keegan表示，这笔资金不附带任何条件，也未主张任何所有权。"他们说，我们听说了你们在语言保护方面的工作，希望给予支持，请按照你们认为合适的方式使用这笔经费。"他说，这笔资金最终使他们得以公平地向Katipa支付相应报酬。

随着工具开发完成，所有权问题始终是Keegan最为关注的核心议题。从标准知识产权的角度而言，这套语音归Katipa本人所有；而从毛利文化的视角来看，Keegan认为它属于整个社群："这是通过她的祖先一代代传承下来的宝贵财富，她的职责是为子孙后代守护这份遗产。"

因此，Keegan并未选择公开发布这套语音模型，而是正在与Katipa所属的三个伊维（部落）——怀卡托、马尼亚波托和劳卡瓦——展开协商。"这套系统的守护权应该归属于他们，"Keegan说，"而不是大学。"为此，他联系了总部位于惠灵顿的Catalyst IT公司，该公司慷慨提供了一年的网站托管服务和运行语音模型所需的算力支持。

全球原住民语言AI的发展现状

数据主权正在成为原住民AI社区日益关注的核心议题。新西兰北部的毛利媒体机构Te Hiku Media开发了一套自动语音识别系统，对纯毛利语语音的识别准确率达到92%，对双语语音的准确率也达到82%。该机构以"Kaitiakitanga"许可证的形式发布了这一模型——这是一份法律文件，规定该数据仅可用于毛利人的利益。

在其他地区，巴塞罗那超级计算中心的Aina项目发布了Matxa，这是一套基于开源架构构建的多方言加泰罗尼亚语文字转语音系统。在魁北克，Michael Running Wolf主导的"第一语言AI现实"（FLAIR）项目正致力于为北美原住民语言构建语音识别模型。

语音驱动技术——如虚拟助手、屏幕阅读器、导航系统和智能设备——已经无处不在。对于Keegan而言，这些工具既可能成为"净化并殖民我们语言"的手段，也可能成为"让我的孙辈获得传统知识赋能"的途径。他认为，两者之间的差异，在于谁来开发和拥有这套技术。"我希望我的子孙后代能够通过我们自己的系统获取我们的知识。这套语音系统，正是实现这一目标的第一步。"

从长远来看，他的目标是运用相同的开源、社区所有制方法论来构建完整的语言模型。"那将不会是一个毛利语大语言模型，"他说，"而是一个马尼亚波托大语言模型、一个图霍埃大语言模型，等等。"每个模型都将归属于其所代表语言的社群，并基于该社群的语音数据进行训练。

尽管这在工程上比文字转语音系统更具挑战性，但怀卡托项目已经证明，所需的基础设施已经具备——在有限数据上高效训练、基于音素的输入方式、开源工具，以及社区所有制的法律与治理框架。"我们已经搭建了一套模板，让全国其他伊维都能照此实施，"Keegan说，"我很乐意为他们提供帮助。"

Q&A

Q1：毛利语文字转语音系统在技术上面临哪些主要挑战？

A：毛利语属于低资源语言，可用数字化训练数据较少。此外，毛利语具有独特的语言学特征，例如元音时长的差异会直接改变词义（如"蛋糕""腋窝""嘎吱声"三词仅靠元音长短区分），复合字母的发音规则也与英语不同。这些特点使得主要基于英语开发的AI语音模型在应用于毛利语时容易产生错误。

Q2：怀卡托大学的毛利语语音模型用了多少训练数据，效果怎么样？

A：研究团队共使用了约7小时45分钟的录音数据，远低于通常建议的数百小时。最终模型的词错误率为6.78%，达到行业"良好"标准。在邀请68位流利毛利语使用者参与的真人与合成语音辨别测试中，听众的正确识别率仅为65%，说明合成语音已具备相当高的自然度。

Q3：这套毛利语语音模型归谁所有，会公开发布吗？

A：该模型不会公开发布。从毛利文化角度，这套语音被视为社区共有的文化财富。开发者Te Taka Keegan正与录音者Ngaringi Katipa所属的三个毛利部落（怀卡托、马尼亚波托和劳卡瓦）协商，将模型的守护权交由这些社区持有，而非归属于大学或商业机构。

来源：Spectrum

0赞

好文章，需要你的鼓励

毛利语文字转语音模型：拒绝科技巨头主导，守护语言主权

来源：Spectrum

2026

05/24

22:01

分享

点赞

AI生成"时间旅行博主"：用科技让历史重现

安全培训的未来：Dashlane 与 KnowBe4 集成方案解析

机器人与自动化时代，网络安全为何至关重要

智能储物柜在零售行业各领域的应用解析

Newel Health与Gerresheimer携手助力制药行业数字化转型

Ignite与OST携手攻克自动驾驶汽车AI合规难题

2026年度英国科技50强：最具影响力科技领袖候选长名单

CIO职位转型：科技高管迈向业务与技术融合的复合角色

苹果M5 MacBook Air 13英寸再创历史低价，直降150美元

Newel Health与Gerresheimer携手助力制药行业拥抱数字化转型

阿里云首届新加坡Qwen大会发布旗舰模型Qwen 3.7-Max

先进电力电子技术如何减少AI数据中心柴油发电机运行时长

谷歌推出AI购物智能体，帮你"一站式"购物体验升级

Apple Music发布公开信：致力于在AI时代维护音乐公平生态

xAI与Anthropic计算资源合作协议，揭示AI算力独立商业化新趋势

企业网络基础设施是否已为AI工作负载做好准备？

AI遭Z世代抵制：CIO面临的人才培养危机

Brain Corp与加州大学圣地亚哥分校合作推进物理AI基础智能层研究

Doozy Robotics宣布全球扩张，以AI人形机器人构建工厂自动化劳动力

华为AI DC全栈方案发布：以数据觉醒，驱动产业智能跃迁

超聚变的“智企”进化论

OpenAI攻克80年数学难题，推翻Erdos猜想边界

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: