在今天的专栏中,我探讨了一个引人深思且尚未解决的AI话题,这个话题虽然没有得到太多关注,但确实值得深入思考。问题是这样的:我们应该准备向AI提出多少个问题,来确定AI是否已经达到了令人向往的通用人工智能(AGI)水平,甚至可能达到了人工超级智能(ASI)?
这不仅仅是一个学术哲学问题。在某个时候,我们应该准备好就是否已经达到AGI和ASI达成一致。可能的方法是向AI提问,然后评估AI生成答案所表现出的智力敏锐度。
那么,我们需要问多少个问题呢?
让我们来谈论这个问题。
这项创新AI突破的分析是我正在进行的福布斯专栏系列的一部分,该系列涵盖AI领域的最新进展,包括识别和解释各种有影响力的AI复杂性。
走向AGI和ASI
首先,需要一些基本概念来为这个重要讨论奠定基础。
目前有大量研究正在进行,以进一步推进AI发展。总体目标是要么达到通用人工智能(AGI),要么甚至实现人工超级智能(ASI)这一更远大的可能性。
AGI是被认为与人类智力相当并能看似匹配我们智能的AI。ASI是已经超越人类智力并在许多甚至所有可行方面都更优秀的AI。其理念是ASI能够在每一个转折点上都超越人类思维,从而轻易胜过人类。
我们尚未达到AGI。
实际上,我们是否会达到AGI,或者AGI可能在几十年或几个世纪后才能实现,这些都是未知的。目前流传的AGI实现日期差异很大,且缺乏任何可信证据或严密逻辑支撑。相对于我们目前的传统AI水平,ASI更是遥不可及。
关于顶级AI的测试
人类面临的部分困难在于我们没有可靠的测试来确定是否已经达到AGI和ASI。
一些人相当高傲地宣称,当我们看到它时就会知道。换句话说,这是一个模糊的方面,否定了任何系统性评估。我们的整体感觉或直觉将引导我们决定是否已经实现了顶级AI。
就这样,故事结束。
但这不能是故事的结尾,因为我们应该有一个更深思熟虑的方式来确定是否已经达到顶级AI。如果唯一的手段仅仅是格式塔式的情感反应,就会产生大量混乱。你会看到很多人宣称顶级AI存在,而很多其他人会坚持认为这种宣言完全为时过早。巨大的分歧将会出现。
某种形式的真实评估或测试来正式化这个问题是急需的。
我已经广泛讨论和分析了一个著名的AI内部测试,称为图灵测试。图灵测试以著名数学家和早期计算机科学家艾伦·图灵的名字命名。简而言之,其理念是向AI提问,如果你无法区分其回答与人类回答的差异,你可能会宣称该AI表现出与人类相当的智能。
图灵测试被错误诋毁
如果你问一个AI技术专家对图灵测试的看法,要小心。你会听到很多抱怨,而且不会很愉快。
一些人认为图灵测试是浪费时间。他们会争论说它不能很好地工作且已经过时。我们已经远远超越了它的用处。你看,这是艾伦·图灵在1949年设计的测试。那是75年多以前的事了。那么久远的东西显然不能适用于我们现代AI时代。
其他人会傲慢地告诉你图灵测试已经成功通过了。换句话说,现有AI据说已经通过了图灵测试。许多醒目的标题都这么说。因此,图灵测试没有太大用处,因为我们知道还没有顶级AI,但图灵测试似乎说我们有。
我反复试图澄清这个问题。真实情况是图灵测试被不当应用了。那些声称图灵测试已经通过的人在这个著名测试方法上玩快速和松散的游戏。
滥用图灵测试
图灵测试的部分漏洞在于问题的数量和类型未被指定。这取决于选择使用图灵测试的个人或团队来决定这些关键方面。这导致了不幸的麻烦和有问题的结果。
假设我决定对ChatGPT进行图灵测试,这个广受欢迎的生成式AI和大语言模型每周有4亿人在使用。我将寻求提出可以问ChatGPT的问题。我也会向我最亲密的朋友问同样的问题,看看他们给出什么答案。
如果我无法区分我的人类朋友和ChatGPT的答案,我将简要而大声地宣布ChatGPT已经通过了图灵测试。其理念是生成式AI已经成功模仿人类智力到这样的程度:人类提供的答案和AI提供的答案本质上是相同的。
在想出五十个问题后,其中一些简单一些困难,我开始实施我的图灵测试。ChatGPT回答了每个问题,我的朋友也是如此。AI的答案和我朋友的答案几乎无法区分。
瞧,我可以开始告诉世界ChatGPT已经通过了图灵测试。我总共只花了大约一个小时就弄明白了这一点。我花了一半时间想出问题,另一半时间获得各自的答案。
轻而易举。
问题的数量
这里有一个供你思考的问题。
你相信问五十个问题足以确定是否存在智力敏锐度吗?
这似乎不够充分。特别是当我们将AGI定义为在智力上与人类智力的整个范围和深度相当的AI形式时。事实证明,我为图灵测试想出的问题不包括关于化学、生物学和许多其他学科或领域的任何内容。
我为什么不包括那些领域?
嗯,我选择只编写五十个问题。
在仅仅五十个问题中,你无法问及所有人类知识的任何深度和广度。当然,你可以作弊,问一个恳求人或AI说出他们知道的一切的问题。在这种情况下,大概在某个时候,"答案"会包括化学、生物学等。这不是一个可行的方法,所以让我们抛开笼统的问题,瞄准具体的问题而不是狡黠的包罗万象的问题。
多少问题才够
我相信你愿意承认,在进行试图确定智力能力的测试时,问题的数量是重要的。让我们试着想出一个有意义的数字。
我们可以从数字零开始。一些人认为我们甚至不应该问一个问题。AI有义务说服我们它已经达到了AGI或ASI。因此,我们可以简单地坐下来看看AI对我们说什么。我们要么最终被花言巧语说服,要么没有。
零方法的一个大问题是AI可能会无休止地唠叨,可能只是在倾倒它已经模式化的一切。提问的美妙之处在于你有机会跳来跳去并可能找到空白点。如果AI只是在说它要说的任何东西,你的眼睛很容易被蒙蔽。
我建议我们同意使用非零计数。我们应该至少问一个问题。仅限于一个问题的困难在于我们又回到了要么错过机会只击中一个特定要点,要么我们将以过于宽泛的方式要求整个厨房水槽的困境。这些都不令人满意。
好的,我们必须问至少两个或更多问题。我敢说两个似乎不够高。十个问题似乎够吗?可能不够。一百个问题呢?仍然似乎不充分。一千个问题?一万个问题?十万个问题?
很难判断正确的数字可能在哪里。也许我们可以思考这个话题并找出一个合理的大概估计。
让我们这样做。
顶级AI的最新测试
你可能知道,每当一个顶级AI制造商推出他们生成式AI的新版本时,他们都会运行一系列各种AI评估测试,试图高兴地展示他们的AI比其他竞争的大语言模型好多少。
例如,埃隆·马斯克的xAI最近发布了Grok 4,xAI和其他公司使用了许多已经相对流行的专门测试来看Grok 4的表现如何。测试包括(a)人类最后的考试或HLE,(b)ARC-AGI-2,(c)GPQA,(d)USAMO 2025,(e)AIME 2025,(f)LiveCodeBench,(g)SWE-Bench,以及其他此类测试。
其中一些测试与AI能够生成程序代码有关(例如,LiveCodeBench,SWE-Bench)。一些测试是关于能够解决数学问题的(例如,USAMO,AIME)。GPQA测试是面向科学的。
你知道GPQA测试集中有多少问题吗?
总共有546个问题,包括主集中的448个问题和更难的钻石集中的另外198个问题。
如果你对GPQA中问题的性质感兴趣,请访问GPQA GitHub网站,另外你可能会发现David Rein等人的初始论文"GPQA: A Graduate-Level Google-Proof Q&A Benchmark"(arXiv,2023年11月20日)很有趣。根据该论文:"我们提出GPQA,这是一个包含448个多选题的具有挑战性的数据集,由生物学、物理学和化学领域的专家编写。我们确保这些问题是高质量和极其困难的:在相应领域拥有或正在攻读博士学位的专家达到65%的准确率(当回顾中专家识别出明显错误时为74%),而高技能的非专家验证者仅达到34%的准确率,尽管平均花费超过30分钟且可以无限制地访问网络(即,这些问题是'谷歌证明'的)。"
请注意,你可能会听到一些令人惊讶的声明,即生成式AI因为在GPQA测试上的特定分数而在所有领域都优于博士级研究生。这是一个令人叹为观止的全面声明,误导性地描绘了通常进行的实际测试。
简而言之,任何此类宣言都应该带着巨大的怀疑态度来看待。
估算问题计数
假设我们提出自己的便利测试,其中包含博士级问题。该测试总共将有600个问题。我们将制作关于6个领域的600个问题,平均分配,我们将采用(1)物理学,(2)化学,(3)生物学,(4)地质学,(5)天文学,和(6)海洋学这六个领域。这意味着我们将在每个学科中有100个问题。例如,将有100个关于物理学的问题。
你是否满意通过向人类询问一套关于物理学的100个问题,我们将能够确定他们在物理学方面的全部知识范围和深度以及智力实力?
我对此表示怀疑。你当然能够衡量他们对物理学理解的一些表现。可能的情况是,只有100个问题,你只是在抽样他们的知识。那是一个足够大的抽样吗,还是我们应该问更多的问题?
另一个考虑是我们只问关于6个领域的问题。其他所有领域怎么办?我们没有包括关于气象学、人类学、经济学、政治学、考古学、历史、法律、语言学等的任何问题。
如果我们想要评估像希望的AGI这样的AI,我们大概需要涵盖每一个可能的领域。我们还需要每个领域有足够高数量的问题,以便我们满意我们的抽样正在深入和广泛。
设计一个稻草人计数
跟我一起来想出一个稻草人计数。我们的目标将是数量级估计,而不是确切的数字。我们想要有一个大概范围,所以我们会知道这个范围是什么。
我们将通过注意美国国会图书馆有一套广泛的主题标题来开始这个冒险,通常称为LCSH(国会图书馆主题标题)。LCSH始于1897年,此后一直在更新和维护。LCSH通常被认为是世界上使用最广泛的主题词汇表。
顺便说一下,一些人支持LCSH,一些人不支持。关于某些主题标题是否合理存在激烈辩论。关于一些主题标题的措辞存在尖刻辩论。讨论不断进行。我不会在这里涉足那个泥潭。
截至2025年4月,LCSH的计数为388,594条记录。为了这个大概讨论的缘故,我将把那个数字四舍五入到400,000。我们可以对此争论,以及争论所有这些主题标题是否独特和可用,但我现在不走那条路。
假设我们为每个LCSH主题标题想出一个问题,这样无论那个领域或学科包含什么,我们都将问一个关于它的问题。我们然后将有400,000个问题准备被询问。
每个领域一个问题似乎不充分。
考虑这些可能性:
(a) 40万个问题:1个问题 x 40万LCSH (b) 400万个问题:10个问题 x 40万LCSH (c) 4000万个问题:100个问题 x 40万LCSH (d) 4亿个问题:1000个问题 x 40万LCSH (e) 40亿个问题:1万个问题 x 40万LCSH (f) 400亿个问题:10万个问题 x 40万LCSH (g) 4000亿个问题:100万个问题 x 40万LCSH
等等。
如果我们选择每个LCSH有10,000个问题,我们将需要想出40亿个问题。那是很多问题。但也许每个领域只问10,000个问题是不够的。我们可能选择100,000个问题,这样总计就达到400亿个问题。
通过问题评估AGI
向潜在的AGI询问十亿或数百亿个问题,即40亿到400亿,这些问题在所有"已知"领域中同样多样,似乎是足够的测试范围和深度吗?
一些批评者会说这是胡说八道。你不需要问那么多问题。这是巨大的过度。你可以使用一个小得多的数字。如果是这样,那个数字是多少?那个提议计数的理由是什么?如果不是数十亿,这个数字会是数千或数百万的数量级吗?不要试图通过说计数在某种程度上是无形的或完全不确定的来回避这个问题。
在数十亿的稻草人情况下,怀疑者会说你不可能想出十亿或更多问题。这在后勤上是不可行的。即使你能够,你也永远无法评估对那些问题给出的答案。浏览那些数十亿答案将永远需要时间。而且你需要所有人类知识领域的专家来判断答案是对还是错。
一个反驳论点是我们可能会使用AI,一个不同于被测试AGI的AI,来帮助这个努力。那也有优点和缺点。我将在即将到来的帖子中涵盖那个考虑。请关注。
确实有很多问题需要考虑和处理。手头极其严重的问题值得解决这些方面。记住,我们专注于我们如何知道我们已经达到AGI。那是一个巨大的问题。我们应该准备问足够的问题,以便我们能够集体和合理地得出已经达到AGI的结论。
正如阿尔伯特·爱因斯坦恰当地说:"从昨天学习,为今天而活,为明天而希望。重要的是不要停止质疑。"
好文章,需要你的鼓励
OpenAI研究科学家Alexander Wei宣布,公司一个未发布的实验模型在国际数学奥林匹克竞赛中解决了六道题目中的五道,获得42分中的35分,达到金牌水平。该模型展现出类似人类数学家的推理能力,能够构建复杂严密的论证。这标志着AI在创造性问题解决方面的重要突破,不过该技术预计数月内不会公开发布。
约翰霍普金斯大学与StepFun公司联合研究,成功让AI学会"边看边思考"的视觉推理能力。通过两阶段训练方法,先让AI在文字推理中掌握认知行为,再迁移到视觉任务中。开发的OVR模型在多项测试中创造新纪录,为AI教育助手、医疗诊断、科研分析等应用奠定基础。
本文探讨了判断AI是否达到通用人工智能(AGI)和人工超级智能(ASI)水平所需的问题数量。目前缺乏确定的测试方法来评估是否达到顶级AI水平。基于图灵测试的分析,作者提出仅通过少量问题难以全面评估智能水平。参考美国国会图书馆主题标引(LCSH)的40万个主题领域,如果每个领域提出1万个问题,将需要40亿个问题来全面测试AGI。这种大规模测试虽然在逻辑上合理,但在实际操作中面临巨大挑战。
阿姆斯特丹大学研究团队开发出"缓存驾驶"技术,通过修改AI模型的键值缓存而非重新训练,让小型语言模型瞬间获得大模型的推理能力。该技术仅需一次调整就能让模型展现逐步推理行为,计算开销几乎为零,在多个推理基准测试中表现优异,还能实现推理风格迁移。