科学家创建史上最难AI测试,结果令人意外

随着AI在传统学术基准测试中得分极高,研究人员发现现有测试已无法准确衡量先进AI系统的能力。为此,近千名全球研究人员开发了"人类最后考试",这是一个包含2500道题目的评估系统,涵盖数学、人文、自然科学等高度专业化领域。测试结果显示,即使是最强大的AI模型准确率也仅为40-50%,表明AI与人类智能之间仍存在巨大差距。

当人工智能系统在长期使用的学术基准测试中开始获得极高分数时,研究人员注意到一个日益严重的问题。曾经对机器具有挑战性的测试不再足够困难。诸如大规模多任务语言理解(MMLU)考试等知名评估,此前被视为具有挑战性,现在已无法恰当衡量当今先进AI模型的能力。

为解决这个问题,一个由近1000名研究人员组成的全球团队,包括德州农工大学的一位教授,开发了一种新型测试。他们的目标是建立一个广泛、困难且基于专家人类知识的考试,这些知识是当前AI系统仍然难以处理的。

结果就是"人类最后的考试"(HLE),这是一个包含2500道题目的评估,涵盖数学、人文学科、自然科学、古代语言以及广泛的高度专业化学术领域。该项目的详细信息发表在《自然》杂志上,考试的更多信息可在lastexam.ai网站获得。

众多贡献者中包括德州农工大学计算机科学与工程系的教学副教授阮东博士。阮博士帮助编写和完善了许多考试题目。

"当AI系统在人类基准测试中表现极佳时,人们容易认为它们接近人类水平的理解,"阮博士说。"但HLE提醒我们,智能不仅仅是模式识别——它关乎深度、语境和专业知识。"

考试的目的不是欺骗或击败人类应试者。相反,目标是仔细识别AI系统仍然不足的领域。

测量AI极限的全球努力

来自世界各地的专家编写和审查了人类最后考试中包含的问题。每个问题都经过精心设计,确保有一个清晰、可验证的答案。这些问题还经过精心制作,以防止通过简单的互联网搜索快速解决。

主题来自高级学术挑战。一些任务涉及翻译古代帕尔米拉铭文,而另一些则需要识别鸟类的微小解剖结构或分析《圣经》希伯来语发音的详细特征。

研究人员针对领先的AI系统测试了每个问题。如果任何模型能够正确回答某个问题,该问题就会从最终考试中删除。这个过程确保测试始终保持在当前AI系统可靠解决能力的边界之外。

早期测试证实了这一策略的有效性。即使是强大的AI模型也在考试中遇到困难。GPT-4o获得了2.7%的分数,而Claude 3.5 Sonnet达到了4.1%。OpenAI的o1模型表现稍好,达到8%。迄今为止最有能力的系统,包括Gemini 3.1 Pro和Claude Opus 4.6,准确率达到约40%到50%之间。

为什么需要新的AI基准测试

阮博士解释说,AI超越旧测试的问题不仅仅是技术关切。他在HLE的2500道公开题目中贡献了73道,是贡献者中第二高的数量,并编写了最多与数学和计算机科学相关的题目。

"没有准确的评估工具,政策制定者、开发者和用户可能会误解AI系统的实际能力,"他说。"基准测试为衡量进展和识别风险提供了基础。"

根据研究团队的说法,在最初为人类设计的测试中获得高分并不一定表明真正的智能。这些基准测试主要衡量AI完成为人类学习者创建的特定任务的能力,而不是捕捉更深层的理解。

不是威胁,而是工具

尽管名称具有戏剧性,人类最后的考试并不意味着人类正在变得过时。相反,它突出了仍然是人类独有的大量知识和专业技能。

"这不是与AI的竞赛,"阮博士说。"这是一种理解这些系统强项和弱项的方法。这种理解帮助我们构建更安全、更可靠的技术。重要的是,它提醒我们为什么人类专业知识仍然重要。"

构建长期AI基准测试

人类最后的考试旨在成为未来AI系统的持久透明基准测试。为支持这一目标,研究人员公开发布了一些问题,同时保持大部分问题隐藏,以便AI模型不能简单地记住答案。

"目前,人类最后的考试是AI与人类智能差距最清晰的评估之一,"阮博士说,"尽管技术发展迅速,这种差距仍然很大。"

大规模国际研究努力

阮博士强调,项目的规模证明了跨学科和跨国合作的价值。

"使这个项目非凡的是其规模,"他说。"几乎每个学科的专家都做出了贡献。不仅仅是计算机科学家;还有历史学家、物理学家、语言学家、医学研究人员。这种多样性正是暴露当今AI系统差距的关键——或许讽刺的是,这是人类共同合作的结果。"

Q&A

Q1:人类最后的考试是什么?它有什么特点?

A:人类最后的考试是由近1000名全球研究人员开发的新型AI测试,包含2500道题目,涵盖数学、人文学科、自然科学、古代语言等高度专业化学术领域。每个问题都经过精心设计,确保有清晰可验证的答案,且无法通过简单互联网搜索解决。

Q2:当前最先进的AI模型在这个考试中表现如何?

A:即使是最强大的AI模型也在考试中遇到困难。GPT-4o仅获得2.7%的分数,Claude 3.5 Sonnet达到4.1%,OpenAI的o1模型为8%。目前表现最好的系统包括Gemini 3.1 Pro和Claude Opus 4.6,准确率在40%到50%之间。

Q3:为什么需要开发这样一个新的AI基准测试?

A:因为现有的学术基准测试如MMLU考试已经无法恰当衡量当今先进AI模型的真实能力。AI系统在这些测试中得分很高,但这并不表明它们具有真正的智能理解。新基准测试能帮助准确评估AI能力,为政策制定者和开发者提供可靠的参考。

来源:ScienceDaily

0赞

好文章,需要你的鼓励

2026

03/16

16:30

分享

点赞

邮件订阅