一个新的、具有挑战性的 AGI 测试让大多数 AI 模型难以应对

人工智能研究者Francois Chollet联合创立的非营利组织Arc Prize Foundation推出了一项新的挑战性测试，旨在评估顶尖AI模型的通用智能水平。这项名为ARC-AGI-2的测试目前难倒了大多数模型，人类表现远超AI。测试要求AI识别视觉模式并生成正确答案，同时引入效率指标，评估AI获取和应用新技能的能力。

知名 AI 研究员 Francois Chollet 共同创立的非营利组织 Arc Prize Foundation 在周一的一篇博文中宣布，他们创建了一个新的、具有挑战性的测试，用于衡量领先 AI 模型的通用智能水平。

到目前为止，这个名为 ARC-AGI-2 的新测试让大多数模型都难以应对。

根据 Arc Prize 排行榜显示，像 OpenAI 的 o1-pro 和 DeepSeek 的 R1 这样的"推理型" AI 模型在 ARC-AGI-2 上的得分在 1% 到 1.3% 之间。包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 在内的强大非推理模型的得分约为 1%。

ARC-AGI 测试由类似谜题的问题组成，AI 需要从不同颜色方块的集合中识别视觉模式，并生成正确的"答案"网格。这些问题的设计目的是迫使 AI 适应它之前从未见过的新问题。

Arc Prize Foundation 让超过 400 人参加了 ARC-AGI-2 测试，以建立人类基准。平均而言，这些人组成的"小组"在测试题目中的正确率达到 60% —— 远远超过任何模型的得分。

在 X 平台上的一篇帖子中，Chollet 声称 ARC-AGI-2 比第一代测试 ARC-AGI-1 能更好地衡量 AI 模型的实际智能水平。Arc Prize Foundation 的测试旨在评估 AI 系统是否能在其训练数据之外高效地获取新技能。

Chollet 表示，与 ARC-AGI-1 不同，新测试防止 AI 模型依赖"暴力计算" —— 即大量计算力 —— 来寻找解决方案。Chollet 此前承认这是 ARC-AGI-1 的一个主要缺陷。

为了解决第一个测试的缺陷，ARC-AGI-2 引入了一个新的衡量标准：效率。它还要求模型即时解释模式，而不是依赖记忆。

Arc Prize Foundation 联合创始人 Greg Kamradt 在一篇博文中写道："智能不仅仅由解决问题或获得高分的能力来定义。获取和部署这些能力的效率是一个关键的、决定性的组成部分。核心问题不仅仅是'AI 能否获得解决任务的技能？'，还包括'以什么效率或成本？'"

ARC-AGI-1 在大约五年内都未被超越，直到 2024 年 12 月，OpenAI 发布了其先进的推理模型 o3，该模型超越了所有其他 AI 模型，并在评估中达到了与人类相当的表现。然而，正如我们当时指出的，o3 在 ARC-AGI-1 上的性能提升伴随着高昂的成本。

OpenAI 的 o3 模型版本 —— o3 (low) —— 首次在 ARC-AGI-1 上达到新高度，在测试中得分 75.7%，但在 ARC-AGI-2 上每个任务使用 200 美元的计算力只获得了 4% 的可怜得分。

随着科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展，ARC-AGI-2 应运而生。Hugging Face 的联合创始人 Thomas Wolf 最近告诉 TechCrunch，AI 行业缺乏足够的测试来衡量所谓人工通用智能的关键特征，包括创造力。

与新基准一同发布的还有 Arc Prize 2025 竞赛，挑战开发者在每个任务仅花费 0.42 美元的情况下，在 ARC-AGI-2 测试中达到 85% 的准确率。

来源：Techcrunch

0赞

好文章，需要你的鼓励

一个新的、具有挑战性的 AGI 测试让大多数 AI 模型难以应对

来源：Techcrunch

2025

03/25

17:36

分享

点赞

AI如何重振电商客户信任度

Qumulo推出Stratus架构实现安全多租户环境

氛围编程诞生四个月后：软件开发正在发生根本性变革

拉美数据中心淘金热背后的重大风险

诺基亚发布自主网络架构平台

华为携手产业达成移动AI基础网共识，加速5G-A体验变现

北京联通携手华为拥抱AI技术革命，加速迈入智能时代

算力狂飙时代：新华三如何掀起底座革命？

AI应用核爆时代，智算网络如何“接招”？

训练成本低至惊人！MiniMax 开源Flash Attention机制的 M1 推理模型

马斯克现身YC大会：谈"智能大爆炸"时代的生存法则，结合PayPal、SpaceX、特斯拉、xAI创业史，详解如何使用第一性原理

全球领头CRM，如何在中国跑出新模式？

Red Hat 简化 AI 应用训练和推理的数据访问流程

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

OpenAI 爆火的吉卜力风格引发 AI 版权担忧

ETSI 发布首个后量子加密标准

ChatGPT 整合 GPT-4o 推出图像生成功能

让数据为 AI 做好准备的三个步骤

Gemini 2.5 Pro 问世：提供更强大的性能和更出色的体验

Imandra 新推出的 AI 编程助手 CodeLogician 利用"推理能力"确保代码准确性

微软为研究和数据分析推出"深度推理"版 Copilot AI

Amazon 推出 AI 智能购物助手，洞悉你的喜好

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: