科学家创建史上最难AI测试，结果令人意外

随着AI在传统学术基准测试中得分极高，研究人员发现现有测试已无法准确衡量先进AI系统的能力。为此，近千名全球研究人员开发了"人类最后考试"，这是一个包含2500道题目的评估系统，涵盖数学、人文、自然科学等高度专业化领域。测试结果显示，即使是最强大的AI模型准确率也仅为40-50%，表明AI与人类智能之间仍存在巨大差距。

当人工智能系统在长期使用的学术基准测试中开始获得极高分数时，研究人员注意到一个日益严重的问题。曾经对机器具有挑战性的测试不再足够困难。诸如大规模多任务语言理解(MMLU)考试等知名评估，此前被视为具有挑战性，现在已无法恰当衡量当今先进AI模型的能力。

为解决这个问题，一个由近1000名研究人员组成的全球团队，包括德州农工大学的一位教授，开发了一种新型测试。他们的目标是建立一个广泛、困难且基于专家人类知识的考试，这些知识是当前AI系统仍然难以处理的。

结果就是"人类最后的考试"(HLE)，这是一个包含2500道题目的评估，涵盖数学、人文学科、自然科学、古代语言以及广泛的高度专业化学术领域。该项目的详细信息发表在《自然》杂志上，考试的更多信息可在lastexam.ai网站获得。

众多贡献者中包括德州农工大学计算机科学与工程系的教学副教授阮东博士。阮博士帮助编写和完善了许多考试题目。

"当AI系统在人类基准测试中表现极佳时，人们容易认为它们接近人类水平的理解，"阮博士说。"但HLE提醒我们，智能不仅仅是模式识别——它关乎深度、语境和专业知识。"

考试的目的不是欺骗或击败人类应试者。相反，目标是仔细识别AI系统仍然不足的领域。

测量AI极限的全球努力

来自世界各地的专家编写和审查了人类最后考试中包含的问题。每个问题都经过精心设计，确保有一个清晰、可验证的答案。这些问题还经过精心制作，以防止通过简单的互联网搜索快速解决。

主题来自高级学术挑战。一些任务涉及翻译古代帕尔米拉铭文，而另一些则需要识别鸟类的微小解剖结构或分析《圣经》希伯来语发音的详细特征。

研究人员针对领先的AI系统测试了每个问题。如果任何模型能够正确回答某个问题，该问题就会从最终考试中删除。这个过程确保测试始终保持在当前AI系统可靠解决能力的边界之外。

早期测试证实了这一策略的有效性。即使是强大的AI模型也在考试中遇到困难。GPT-4o获得了2.7%的分数，而Claude 3.5 Sonnet达到了4.1%。OpenAI的o1模型表现稍好，达到8%。迄今为止最有能力的系统，包括Gemini 3.1 Pro和Claude Opus 4.6，准确率达到约40%到50%之间。

为什么需要新的AI基准测试

阮博士解释说，AI超越旧测试的问题不仅仅是技术关切。他在HLE的2500道公开题目中贡献了73道，是贡献者中第二高的数量，并编写了最多与数学和计算机科学相关的题目。

"没有准确的评估工具，政策制定者、开发者和用户可能会误解AI系统的实际能力，"他说。"基准测试为衡量进展和识别风险提供了基础。"

根据研究团队的说法，在最初为人类设计的测试中获得高分并不一定表明真正的智能。这些基准测试主要衡量AI完成为人类学习者创建的特定任务的能力，而不是捕捉更深层的理解。

不是威胁，而是工具

尽管名称具有戏剧性，人类最后的考试并不意味着人类正在变得过时。相反，它突出了仍然是人类独有的大量知识和专业技能。

"这不是与AI的竞赛，"阮博士说。"这是一种理解这些系统强项和弱项的方法。这种理解帮助我们构建更安全、更可靠的技术。重要的是，它提醒我们为什么人类专业知识仍然重要。"

构建长期AI基准测试

人类最后的考试旨在成为未来AI系统的持久透明基准测试。为支持这一目标，研究人员公开发布了一些问题，同时保持大部分问题隐藏，以便AI模型不能简单地记住答案。

"目前，人类最后的考试是AI与人类智能差距最清晰的评估之一，"阮博士说，"尽管技术发展迅速，这种差距仍然很大。"

大规模国际研究努力

阮博士强调，项目的规模证明了跨学科和跨国合作的价值。

"使这个项目非凡的是其规模，"他说。"几乎每个学科的专家都做出了贡献。不仅仅是计算机科学家；还有历史学家、物理学家、语言学家、医学研究人员。这种多样性正是暴露当今AI系统差距的关键——或许讽刺的是，这是人类共同合作的结果。"

Q&A

Q1：人类最后的考试是什么？它有什么特点？

A：人类最后的考试是由近1000名全球研究人员开发的新型AI测试，包含2500道题目，涵盖数学、人文学科、自然科学、古代语言等高度专业化学术领域。每个问题都经过精心设计，确保有清晰可验证的答案，且无法通过简单互联网搜索解决。

Q2：当前最先进的AI模型在这个考试中表现如何？

A：即使是最强大的AI模型也在考试中遇到困难。GPT-4o仅获得2.7%的分数，Claude 3.5 Sonnet达到4.1%，OpenAI的o1模型为8%。目前表现最好的系统包括Gemini 3.1 Pro和Claude Opus 4.6，准确率在40%到50%之间。

Q3：为什么需要开发这样一个新的AI基准测试？

A：因为现有的学术基准测试如MMLU考试已经无法恰当衡量当今先进AI模型的真实能力。AI系统在这些测试中得分很高，但这并不表明它们具有真正的智能理解。新基准测试能帮助准确评估AI能力，为政策制定者和开发者提供可靠的参考。

来源：ScienceDaily

0赞

好文章，需要你的鼓励

科学家创建史上最难AI测试，结果令人意外

来源：ScienceDaily

2026

03/16

16:30

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

Meta联合国际警方使用AI技术打击全球诈骗网络

Cloudflare推出智能体专用Markdown功能，网站自动适配AI访问

探秘万亿美元AI工厂：英伟达GTC背后的基础设施战争

Facebook Marketplace推出AI自动回复功能应对重复询问

澳洲生物计算数据中心每日例行：为神经元计算机补充脑脊液

Spotify推出新功能Taste Profile，让用户个性化调节推荐算法

Bigme B251彩色墨水屏显示器评测：梦想与现实的差距

OpenClaw AI智能体存在安全漏洞，可能导致提示注入和数据泄露

BuzzFeed推出独立子公司Branch Office 打造AI时代全新社交体验

ChatGPT应用集成功能使用指南：支持DoorDash、Spotify、Uber等多项服务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: