新西兰以壮丽的自然景观著称,但这片土地上的语言生态同样引人注目。在该国三种官方语言中,毛利语(te reo Māori)是唯一的本土原住民语言。尽管目前仅有约4.3%的人口能够流利使用毛利语,但新西兰国家统计数据显示,约30%的新西兰人能够说出超过几个词汇或短语的毛利语。
然而,当你要求ChatGPT生成毛利语文本时,它能够流畅地以学校教学和国家电视台播出的标准毛利语形式作答。Claude和Perplexity同样具备这一能力。这些令人印象深刻的语言表现,建立在毛利社区和学术机构所产出的文字与音频素材之上——这些内容在未经授权的情况下被抓取采集,在新西兰境外完成处理,最终通过大型科技公司所拥有的界面呈现给用户。对于毛利人而言,这是一个不可忽视的问题。
"海外的这些公司拥有足够的资源来开发性能优良的AI模型,"怀卡托大学副教授、该校AI研究所联合所长Te Taka Keegan说,"但他们在未征得我们任何意见的情况下抓取了所有数据,而我们对输出结果毫无所有权。我们的语言是传承知识最重要的载体……然而,我们却眼睁睁地看着在奥特亚罗瓦(新西兰)以外开发的技术,对这些知识的传播握有越来越大的控制权。"
出于对Keegan所称的"数字主权系统"的迫切需求,他与当时还是硕士生的Kingsley Eng共同着手开发一套高保真合成语音系统,即针对毛利语特定方言的文字转语音系统。在整个开发过程中,Keegan和Eng的每一个技术决策都受到一个核心约束的驱动——这一约束在AI领域通常被忽视:这套合成语音系统及其所有构建要素,必须始终归属于说该方言的社群所有。他们期望,这一成果能够为全球其他少数语言社区提供可复制的参考范本。
毛利语的语音挑战
AI语音模型的开发主要以英语为主,将这些模型应用于其他语言时往往会产生错误。毛利语具有一些特殊的语言学特征,例如元音时长的重要性,这给AI语音系统带来了额外挑战。
举例而言,"蛋糕"(keke)、"腋窝"(kēkē)和"嘎吱作响"(kekē)这三个词,仅在元音发音时长上有所不同。复合字母(由两个字母组合成一个音)在毛利语中同样常见,其发音与英语中的规则也不同——例如"wh"通常发"f"的音。在毛利语中,发音不准确会直接改变词语的含义。
此外,与英语或中文相比,毛利语被视为低资源语言,因为可供训练使用的文本、数据集或录音等数字化资料相对匮乏。为解决这一问题,Keegan招募了翻译、教育者兼语言导师Ngaringi Katipa,由她以知情同意的方式为系统提供真实人声。
"我们专注于本地方言Waikato-Maniapoto,因为正是在方言中,才能看到语言真正的美。方言将语言与特定地域和身份认同紧密相连,"Keegan说道。
"我们最初录制了Ngaringi朗读书籍段落的内容,获得了4.5小时的数据,"现任职于精密工具制造商Extec的机器学习工程师Eng表示,"后来,我们根据Te Taka的兄弟Peter——一位毛利语言学专家——提供的详细词句列表,进一步扩充了数据集,涵盖了许多非常罕见的词汇。"经过清理和处理,最终共积累了7小时45分钟的录音素材。
技术方案选择
构建文字转语音系统通常有两种数据输入方式:一是基于字符的方式,将原始字母直接输入模型;二是基于音素的方式,在训练开始前先将文本转换为音标表示,即描述每个词的发音方式。
"我们两种方式都尝试了,但音素方法明显更优,"Eng说,"一开始就向模型提供音素规则,相当于给了它一个先发优势。"音素能够有效告知模型特定字母组合的发音方式,"从而省去部分学习过程"。为了为模型提供音素规则,研究人员使用了一款名为eSpeak-NG的开源工具,该工具内置了毛利语规则的测试版本,研究人员在此基础上进行了进一步调整。
Eng测试了三种开源神经网络架构——Matcha-TTS、Tacotron2和Piper——用于训练并将录音转化为合成语音。其中,支持本地离线运行的Piper效果最佳,最终被选用于成品构建。
尽管所使用的高质量录音不足8小时——远低于训练文字转语音模型通常建议的数百小时数据量——最终生成的AI语音依然表现出色。文字转语音研究的主要评估指标为词错误率,数值越低代表准确率越高。Keegan和Eng开发的AI语音词错误率达到6.78%,按当前行业标准被评定为"良好"。
在整个开发过程中,一位专业的毛利语语言评估师对语音的自然度、发音准确性和表达力进行了持续评估。
研究人员还邀请了68位毛利语流利使用者分别聆听真人录音和合成语音,请他们辨别哪段是真人发音。结果显示,听众的正确识别率为65%。"我们对这个结果感到满意,因为其中一些听众是说话者的家庭成员——他们对她的声音非常熟悉,但仍有几位判断失误,"Keegan说。
所有权与社区归属
谷歌曾为怀卡托团队提供部分资金支持,但Keegan表示,这笔资金不附带任何条件,也未主张任何所有权。"他们说,我们听说了你们在语言保护方面的工作,希望给予支持,请按照你们认为合适的方式使用这笔经费。"他说,这笔资金最终使他们得以公平地向Katipa支付相应报酬。
随着工具开发完成,所有权问题始终是Keegan最为关注的核心议题。从标准知识产权的角度而言,这套语音归Katipa本人所有;而从毛利文化的视角来看,Keegan认为它属于整个社群:"这是通过她的祖先一代代传承下来的宝贵财富,她的职责是为子孙后代守护这份遗产。"
因此,Keegan并未选择公开发布这套语音模型,而是正在与Katipa所属的三个伊维(部落)——怀卡托、马尼亚波托和劳卡瓦——展开协商。"这套系统的守护权应该归属于他们,"Keegan说,"而不是大学。"为此,他联系了总部位于惠灵顿的Catalyst IT公司,该公司慷慨提供了一年的网站托管服务和运行语音模型所需的算力支持。
全球原住民语言AI的发展现状
数据主权正在成为原住民AI社区日益关注的核心议题。新西兰北部的毛利媒体机构Te Hiku Media开发了一套自动语音识别系统,对纯毛利语语音的识别准确率达到92%,对双语语音的准确率也达到82%。该机构以"Kaitiakitanga"许可证的形式发布了这一模型——这是一份法律文件,规定该数据仅可用于毛利人的利益。
在其他地区,巴塞罗那超级计算中心的Aina项目发布了Matxa,这是一套基于开源架构构建的多方言加泰罗尼亚语文字转语音系统。在魁北克,Michael Running Wolf主导的"第一语言AI现实"(FLAIR)项目正致力于为北美原住民语言构建语音识别模型。
语音驱动技术——如虚拟助手、屏幕阅读器、导航系统和智能设备——已经无处不在。对于Keegan而言,这些工具既可能成为"净化并殖民我们语言"的手段,也可能成为"让我的孙辈获得传统知识赋能"的途径。他认为,两者之间的差异,在于谁来开发和拥有这套技术。"我希望我的子孙后代能够通过我们自己的系统获取我们的知识。这套语音系统,正是实现这一目标的第一步。"
从长远来看,他的目标是运用相同的开源、社区所有制方法论来构建完整的语言模型。"那将不会是一个毛利语大语言模型,"他说,"而是一个马尼亚波托大语言模型、一个图霍埃大语言模型,等等。"每个模型都将归属于其所代表语言的社群,并基于该社群的语音数据进行训练。
尽管这在工程上比文字转语音系统更具挑战性,但怀卡托项目已经证明,所需的基础设施已经具备——在有限数据上高效训练、基于音素的输入方式、开源工具,以及社区所有制的法律与治理框架。"我们已经搭建了一套模板,让全国其他伊维都能照此实施,"Keegan说,"我很乐意为他们提供帮助。"
Q&A
Q1:毛利语文字转语音系统在技术上面临哪些主要挑战?
A:毛利语属于低资源语言,可用数字化训练数据较少。此外,毛利语具有独特的语言学特征,例如元音时长的差异会直接改变词义(如"蛋糕""腋窝""嘎吱声"三词仅靠元音长短区分),复合字母的发音规则也与英语不同。这些特点使得主要基于英语开发的AI语音模型在应用于毛利语时容易产生错误。
Q2:怀卡托大学的毛利语语音模型用了多少训练数据,效果怎么样?
A:研究团队共使用了约7小时45分钟的录音数据,远低于通常建议的数百小时。最终模型的词错误率为6.78%,达到行业"良好"标准。在邀请68位流利毛利语使用者参与的真人与合成语音辨别测试中,听众的正确识别率仅为65%,说明合成语音已具备相当高的自然度。
Q3:这套毛利语语音模型归谁所有,会公开发布吗?
A:该模型不会公开发布。从毛利文化角度,这套语音被视为社区共有的文化财富。开发者Te Taka Keegan正与录音者Ngaringi Katipa所属的三个毛利部落(怀卡托、马尼亚波托和劳卡瓦)协商,将模型的守护权交由这些社区持有,而非归属于大学或商业机构。
好文章,需要你的鼓励
随着工厂、仓库中机器人、AGV、工业传感器等设备大量接入网络,网络安全已从"IT职责"升级为"业务生存"问题。网络中断不再只是数据丢失,更可能导致生产停摆、物理安全风险。OT与IT的融合、供应商远程访问、难以修补的老旧设备,都为攻击者提供了可乘之机。实用应对策略包括:网络分段、严格管控远程访问、建立设备资产清单、监控异常流量,并优先修补高风险系统。
清华大学等机构提出首个实时双工多模态交互评测基准Omni-DuplexEval,含660个视频、9项任务,揭示当前最佳AI模型综合得分仅39.6分,远低于人类81.8分。
《Computer Weekly》第16届UKtech50评选正式启动,旨在评选英国IT领域最具影响力的50位领袖人物。今年候选人数量再创新高,涵盖政府机构、科技企业、学术机构等各领域精英。评选标准包括影响力、成就、知名度、领导力及发展潜力五大维度。入围长名单者将由专家评审团筛选出50位候选人,并向读者开放投票,最终获奖者将于7月2日正式揭晓。
上交大与腾讯ARCLab提出SGT方法,通过将图像分割作为生成代理任务,有效打通统一多模态模型中理解与生成两种能力的表示空间,在多个主流评测上取得一致性提升。