"复古"大语言模型Talkie：知识停留在1930年前，会产生哪些独特价值？

三位AI研究人员发布了一款名为Talkie的130亿参数"复古"语言模型，其训练数据仅来自1930年前出版的英文书籍、报纸、期刊、科学杂志、专利及案例法。该模型旨在探索AI理解历史文化变迁、预测未来及评估长期预测方法的能力。目前Talkie性能弱于现代同架构模型，主要瓶颈在于OCR文本噪声问题。团队计划持续扩展模型规模，目标于今年夏季推出GPT-3级别版本。

一个由三位AI研究人员组成的团队近期发布了一款名为Talkie的"复古"大语言模型，该模型拥有130亿参数，训练数据仅来源于1930年底之前出版的英文书籍、报纸、期刊、科学杂志、专利及判例法的数字扫描件。选择1931年之前作为截止时间，是因为1930年是目前美国版权公共领域的最新年份。

这意味着，如果你想询问二战、富兰克林·罗斯福当选、阿米莉亚·埃尔哈特独自飞越大西洋，或者微波炉的工作原理，Talkie将无法回答。但如果你想了解贝蒂·布普、爵士时代女郎、大萧条初期美国经济状况，或车载收音机引入后的社会影响，它则是不错的对话伙伴。

这不是第一款此类复古AI模型，此前已有基于维多利亚时代文学和1900年前科学文本训练的模型问世。但据创作团队所知，Talkie是其中参数规模最大的一款。

为什么要做这样一个模型？

Talkie团队在介绍文章中解释称，这类模型不仅是"有趣的对话伙伴"，更有助于深入理解AI的行为与能力。

研究人员举例说，可以利用Talkie测试AI预测未来的能力。此外，团队还提到了谷歌DeepMind联合创始人兼CEO德米斯·哈萨比斯曾提出的一个AGI测试设想：将模型的知识截止于1911年，看它能否仅凭爱因斯坦在1915年提出广义相对论时所拥有的信息，独立推导出这一理论。

换句话说：AI能否凭借当时科学家所掌握的知识，独立完成真实的科学发现？

目前Talkie尚未被要求完成如此高难度的任务，但研究人员已将其与一个架构相同、但使用现代数据训练的模型进行对比测试，看其是否能解决Python编程题。Talkie确实给出了一些正确答案，但局限性明显——所有正确解答都是简单的单行程序（如两个数相加），或对示例程序的小幅修改。研究团队坦承："距离这种能力真正值得关注，还有很长的路要走。"

多元研究目标

多伦多大学计算机科学与统计学副教授、Talkie三位联合创建者之一大卫·杜文诺德在接受媒体采访时表示，他希望Talkie能用于评估长期预测方法，因为其所有预测都基于已经发生过的事件。

他还指出，团队有意通过Talkie研究文化变迁，例如"了解一部法律在其被制定时会如何被解读，依据的是那个时代语言中隐含的假设和含义"。

此外，杜文诺德提到了第三个研究动机："理解模型如何形成自身的自我认知。大语言模型的行为方式在某种程度上是一种自我实现的预言，通过与甚至不知道'大语言模型'是什么的模型对话，我们可以从中有所发现。"

性能差距与数据噪声

尽管如此，Talkie与现代AI模型之间仍存在显著的性能差距。即使在排除问题本身的时代偏差后，Talkie在标准大语言模型评测中的表现仍普遍不及其现代版本的对照模型——即便两者使用了相同的计算量（FLOPs）进行训练。

研究团队认为，问题的根源在于光学字符识别（OCR）技术。由于1930年尚无数字出版物，所有训练文本均需从实体资料中扫描转录，这引入了原生数字文本中所没有的噪声。

研究发现，仅凭OCR转录的1931年前文本训练大语言模型，其性能仅相当于使用人工转录版本的30%；即便经过正则表达式清洗，也只能提升至70%。为此，团队正在自研OCR引擎，以生成更高质量的训练数据。

Talkie还存在"时间泄漏"问题：模型能够识别罗斯福是1936年的美国总统，并列举其部分立法成就，尽管训练数据理论上截止于1931年。团队承认这是"训练语料过滤不完善"的表现，仍在持续改进中。

未来规划

尽管存在上述局限，研究团队表示将在未来数月内持续扩展Talkie模型，计划包括：扩展至英语以外的文本语言、对训练数据重新进行OCR处理、加强时代错误检测，以及与历史学家合作优化后训练数据。

根据初步估算，训练语料库有望扩展至超过一万亿Token的历史文本，届时有望打造出与GPT-3.5相当水平的模型——"与最初的ChatGPT能力相近"。

Talkie的当前版本已可在GitHub和Hugging Face下载，并提供网页版交互界面供用户体验。不过，使用前需注意官方提示：Talkie的输出内容反映了训练文本所代表的文化与价值观，可能产生不准确甚至带有冒犯性的内容，且审核机制在内容完全生成后才会介入。

Q&A

Q1：Talkie大语言模型的训练数据来源是什么，为什么选择1930年作为截止时间？

A：Talkie的训练数据仅来自1930年底前出版的英文书籍、报纸、期刊、科学杂志、专利及判例法的数字扫描件。选择这一截止时间，是因为1930年是目前美国版权公共领域的最新年份，即该年份之前的作品已进入公共版权领域，可以合法使用。

Q2：Talkie大语言模型的实际性能如何，和现代模型相比差距大吗？

A：Talkie与现代模型之间存在明显差距。即使排除问题本身的时代偏差，Talkie在标准大语言模型评测中的表现仍普遍不如架构相同但使用现代数据训练的对照模型。研究团队认为主要原因在于训练数据依赖OCR扫描，引入了较多噪声，OCR文本的训练效果仅相当于人工转录版本的30%至70%。

Q3：研究团队开发Talkie大语言模型的目的是什么？

A：研究团队有多重目标：一是探索AI能否基于历史知识独立完成科学发现；二是评估长期预测方法，因为Talkie的预测均基于已发生的历史事件；三是研究文化变迁与语言语义演变；四是探讨大语言模型如何形成自我认知，通过与"不知道自己是大语言模型"的Talkie对话来深化对AI行为的理解。

来源：The Register

0赞

好文章，需要你的鼓励

"复古"大语言模型Talkie：知识停留在1930年前，会产生哪些独特价值？

来源：The Register

2026

04/29

09:58

分享

点赞

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

牙科诊所软件漏洞修复：患者医疗记录曾遭泄露

关键基础设施巨头Itron确认遭遇网络攻击

Vercel数据泄露范围扩大，黑客早于已知时间节点已入侵

苹果与博通签署300亿美元协议，共同生产美国本土无线芯片

摩托罗拉领投BRINC 1.25亿美元，推动紧急救援无人机大规模扩张

AI赋能芯片设计：前景广阔，疑问犹存

Arm今夏将推出自研芯片，Meta成首批客户

东京羽田机场试用仿人机器人分拣行李，以应对劳动力短缺

Claude正式接入Photoshop、Blender与Ableton等主流创意软件

YouTube正在测试AI搜索工具，支持视频与文字混合搜索结果

亚马逊上线 AI 音频问答功能，购物体验全面升级

Canonical将AI融入Ubuntu的方式，微软应当学习

我们熟知的用户界面已死，四种方式助你迎接"一次性"UI时代

更好的硬件如何将零值变成AI加速引擎：稀疏计算让AI更轻量、更高效

Adobe押注AI智能体，以巩固其在营销工作流程中的核心地位

OpenAI未能完成ChatGPT增长目标，芯片股集体下跌

AWS与OpenAI达成合作，智能体AI能力全面升级

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: