当今世界拥有超过7000种自然语言,但人类对创造新语言的热情从未停止。克林贡语、多斯拉克语、各类精灵语——这些"人造语言"(conlang)早已深入流行文化。如今,一款名为ConlangCrafter的AI模型正在加入这一行列,并展现出令人瞩目的语言创造能力。
2025年6月27日,研究团队在《计算语言学协会会议论文集》上发表了一篇论文,对ConlangCrafter的语言生成能力进行了系统分析。结果显示,该模型能够生成种类丰富的全新语言,且每种语言都能严格遵循自身的语法规则。
从分析语言到创造语言
加州大学伯克利分校语言学副教授加什佩尔·贝古什(Gasper Begus)此前已通过研究证明,大语言模型具备与普通人相当的语言分析能力。在最新研究中,他希望进一步拓展AI模型在语言领域的边界。
"创造一门完整的语言绝非易事,"贝古什表示,"一些人甚至将一生投入到为电影、书籍和游戏创制人造语言的工作中。"
然而贝古什更看重的是AI在语言创造上所具备的独特潜力——它能够构想出人类可能永远不会想到的语言形式。"模型能够想象出我们可能无法想象的事物,这本身就是一种巨大的学习资源,"他说。
以"色彩语言"为例,ConlangCrafter能够为头足类动物设计一套以颜色变化和肢体动作代替声音的交流系统。这种"章鱼语言"并非真实存在,但贝古什认为,它可以作为研究非人类中心语言的重要媒介。
系统架构:多样性与一致性的平衡
ConlangCrafter由贝古什联合卡内基梅隆大学博士后研究员莫里斯·阿尔珀(Morris Alper)和特拉维夫大学博士生莫兰·扬库阿(Moran Yankua)共同开发。系统在设计上涵盖了三个核心语言维度:语音学(音素的组织方式)、形态句法学(词语与句子结构的关系)以及词汇系统。
一个随机数生成器会持续引入变量,确保每次生成的语言都不相同;内置的编辑循环则会对输出结果进行自动审查,识别并修正内部矛盾。用户可以自由搭配语言规则,也可以让ConlangCrafter完全自主生成。
"你可以选择任何风格的语言,"贝古什介绍道,"比如创造一种介于日语和世界语之间的混合语言。"
阿尔珀补充说:"我们希望生成的语言既具有创意——彼此各不相同,又保持内在一致——所有规则不相互矛盾。语言本质上就是一套规则体系。"
为了评估多样性,团队测量了不同生成语言在基本词序等核心语言特征上的差异程度;为了验证一致性,团队则检验了每种语言的翻译结果是否准确遵循了该语言自身的规则。
与Gemini-2.5-Pro等通用大语言模型相比,ConlangCrafter生成的语言多样性约为其两倍,一致性则提升了近70%。
更广泛的研究价值
卡内基梅隆大学语言技术研究所助理研究教授大卫·莫滕森(David Mortensen)未参与此次研究,但他指出,ConlangCrafter有潜力帮助自然语言处理领域的研究人员更好地评估语言结构对模型性能的影响。
"大量研究表明,语言结构——无论是在训练阶段还是测试阶段——确实会影响模型表现,"他说,"但相关假设一直难以得到有效验证。ConlangCrafter这样的工具,有望为语言类型学、词汇等因素的影响提供更科学、更可靠的实验支撑。"
目前,ConlangCrafter已免费开放使用。研究团队也坦承,该系统在语义理解、语境与会话应用、书写系统的视觉呈现等更复杂的语言维度上仍有局限。
下一步,贝古什希望利用ConlangCrafter探索萨丕尔-沃尔夫假说——即语言影响思维与世界感知的理论——通过模拟拥有不同语言的虚拟世界,研究语言对社会的深层影响。"那将是非常有价值的下一步,"他说。
Q&A
Q1:ConlangCrafter是什么?它能生成什么样的语言?
A:ConlangCrafter是一款专门用于生成人造语言(conlang)的AI模型。它能够创造种类丰富的全新语言,支持自定义语音学、形态句法和词汇规则,也可以完全自主生成。用户甚至可以让它创造非常规的交流系统,例如为头足类动物设计一套基于颜色变化和肢体动作的"色彩语言"。每次生成的语言都不相同,且内部规则保持一致。
Q2:ConlangCrafter和通用大语言模型相比,生成语言的效果有什么区别?
A:相比Gemini-2.5-Pro等通用大语言模型,ConlangCrafter生成的语言在多样性上约为其两倍,在一致性上则提升了近70%。通用大语言模型虽然也能在提示下生成新语言,但规则容易相互矛盾,且语言间的差异不够显著。ConlangCrafter通过内置的随机变量机制和自动纠错循环,有效解决了这两个问题。
Q3:ConlangCrafter目前有哪些局限性?未来有什么研究计划?
A:目前ConlangCrafter在语义理解、语境与会话层面的语言运用,以及书写系统的视觉呈现等复杂维度上仍存在不足。未来,研究团队计划利用该工具探索萨丕尔-沃尔夫假说,通过模拟各自拥有不同语言的虚拟世界,研究语言对思维和社会的深层影响。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。