一个新的、具有挑战性的 AGI 测试让大多数 AI 模型难以应对

人工智能研究者Francois Chollet联合创立的非营利组织Arc Prize Foundation推出了一项新的挑战性测试，旨在评估顶尖AI模型的通用智能水平。这项名为ARC-AGI-2的测试目前难倒了大多数模型，人类表现远超AI。测试要求AI识别视觉模式并生成正确答案，同时引入效率指标，评估AI获取和应用新技能的能力。

知名 AI 研究员 Francois Chollet 共同创立的非营利组织 Arc Prize Foundation 在周一的一篇博文中宣布，他们创建了一个新的、具有挑战性的测试，用于衡量领先 AI 模型的通用智能水平。

到目前为止，这个名为 ARC-AGI-2 的新测试让大多数模型都难以应对。

根据 Arc Prize 排行榜显示，像 OpenAI 的 o1-pro 和 DeepSeek 的 R1 这样的"推理型" AI 模型在 ARC-AGI-2 上的得分在 1% 到 1.3% 之间。包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 在内的强大非推理模型的得分约为 1%。

ARC-AGI 测试由类似谜题的问题组成，AI 需要从不同颜色方块的集合中识别视觉模式，并生成正确的"答案"网格。这些问题的设计目的是迫使 AI 适应它之前从未见过的新问题。

Arc Prize Foundation 让超过 400 人参加了 ARC-AGI-2 测试，以建立人类基准。平均而言，这些人组成的"小组"在测试题目中的正确率达到 60% —— 远远超过任何模型的得分。

在 X 平台上的一篇帖子中，Chollet 声称 ARC-AGI-2 比第一代测试 ARC-AGI-1 能更好地衡量 AI 模型的实际智能水平。Arc Prize Foundation 的测试旨在评估 AI 系统是否能在其训练数据之外高效地获取新技能。

Chollet 表示，与 ARC-AGI-1 不同，新测试防止 AI 模型依赖"暴力计算" —— 即大量计算力 —— 来寻找解决方案。Chollet 此前承认这是 ARC-AGI-1 的一个主要缺陷。

为了解决第一个测试的缺陷，ARC-AGI-2 引入了一个新的衡量标准：效率。它还要求模型即时解释模式，而不是依赖记忆。

Arc Prize Foundation 联合创始人 Greg Kamradt 在一篇博文中写道："智能不仅仅由解决问题或获得高分的能力来定义。获取和部署这些能力的效率是一个关键的、决定性的组成部分。核心问题不仅仅是'AI 能否获得解决任务的技能？'，还包括'以什么效率或成本？'"

ARC-AGI-1 在大约五年内都未被超越，直到 2024 年 12 月，OpenAI 发布了其先进的推理模型 o3，该模型超越了所有其他 AI 模型，并在评估中达到了与人类相当的表现。然而，正如我们当时指出的，o3 在 ARC-AGI-1 上的性能提升伴随着高昂的成本。

OpenAI 的 o3 模型版本 —— o3 (low) —— 首次在 ARC-AGI-1 上达到新高度，在测试中得分 75.7%，但在 ARC-AGI-2 上每个任务使用 200 美元的计算力只获得了 4% 的可怜得分。

随着科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展，ARC-AGI-2 应运而生。Hugging Face 的联合创始人 Thomas Wolf 最近告诉 TechCrunch，AI 行业缺乏足够的测试来衡量所谓人工通用智能的关键特征，包括创造力。

与新基准一同发布的还有 Arc Prize 2025 竞赛，挑战开发者在每个任务仅花费 0.42 美元的情况下，在 ARC-AGI-2 测试中达到 85% 的准确率。

来源：Techcrunch

0赞

好文章，需要你的鼓励

一个新的、具有挑战性的 AGI 测试让大多数 AI 模型难以应对

来源：Techcrunch

2025

03/25

17:36

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Red Hat 简化 AI 应用训练和推理的数据访问流程

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

OpenAI 爆火的吉卜力风格引发 AI 版权担忧

ETSI 发布首个后量子加密标准

ChatGPT 整合 GPT-4o 推出图像生成功能

让数据为 AI 做好准备的三个步骤

Gemini 2.5 Pro 问世：提供更强大的性能和更出色的体验

Imandra 新推出的 AI 编程助手 CodeLogician 利用"推理能力"确保代码准确性

微软为研究和数据分析推出"深度推理"版 Copilot AI

Amazon 推出 AI 智能购物助手，洞悉你的喜好

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会