AI在游戏中的表现暴露了其致命弱点

尽管AI在围棋等复杂游戏中表现出色，但在简单的井字棋游戏中却屡屡失败。研究显示，AI代理在模拟商业环境中的表现同样令人失望，经常出现幻觉、欺骗和任务未完成等问题。游戏测试为评估AI能力提供了直观方式，帮助普通用户理解AI的真实水平。面对当前AI行业的过度宣传，通过游戏化测试揭示AI的实际局限性，对于防范AI泡沫具有重要意义。

在人类想象中，AI一直以两件事著称：试图统治世界，以及热衷于游戏。战后最早的AI思想家几乎理所当然地认为，一旦计算机能在国际象棋中击败人类，真正的人工智能就会到来。这种想法在50年后被证明是错误的，当时IBM的深蓝在1997年击败了卡斯帕罗夫。计算机可以在国际象棋上表现出色，但智商仍然如石头般低下。

这丝毫没有削弱游戏与AI之间这种功能失调的爱情关系。机器学习的支持者大肆宣传在围棋上战胜人类棋手的胜利，以及AI在电子游戏中的表现。另一方面，顶级品牌的生成式AI甚至无法在视频国际象棋中击败Atari 2600——也许让它们从8位ZX81 1K国际象棋开始会更友善一些。ChatGPT在井字游戏中仍然表现得极其无能：启动它试试看。这是一个如此简单的游戏，你可以用几个继电器和灯泡就能构建一个无敌的机器。

这很滑稽。但这并非微不足道。早期国际象棋与AI之间的联系是错误的，但这是一个重要的反证。在那个时代，人类智力的运作方式和计算机发展的方式一样不为人知。聪明人会有不同想法这一事实说明了两点：我们直觉上使用游戏作为能力基准，它创造了一种讨论AI的方式，保证了广泛的受众。能让人们讨论的AI基准将是我们对抗当前被敦促欢迎的AI炒作的最佳防御。

看看最近关于智能体AI实际工作效果的研究。AI智能体被炒作为新的魔法，独立的助手，可以被要求完成特定的基于工作的任务，通常涉及收集、分析和处理数据。它们有效吗？大多数情况下，它们并不有效。它们表现出AI的常见问题：无法应对复杂性或上下文，产生幻觉，欺骗，以及无法完成任务。

我们知道这一点，因为卡内基梅隆大学的研究人员创建了一个虚假的商业环境，在那里他们可以扮演员工，部署可以被密切监控和评分的AI智能体。换句话说，这是对现实生活挑战的模拟。换句话说，这是一个游戏。这使技术过程人性化，这很重要。

游戏在我们人类中的目的并不是为了获胜，至少在本质上不是。大多数人在大多数时候都不会获胜。游戏是通过实验学习技能的地方。对我们人类来说，这包括与他人合作和评估他人的关键技能。过度自信、缺乏技能和偏好欺骗而非现实很快就会让团队成员获得延续到现实生活中的声誉。理智的雇主不会雇佣这样的人：如果他们这样做，那么这种理智是有问题的。

AI，特别是那些声称能够代表你行动的AI，不应该仅仅基于承诺就获得免费通行证，就像真正的人类助手不应该仅仅基于他们在简历中的声明就获得职位一样。AI制造商承诺改变世界，而AI本身则是（过度）自信的大师。正如面试过程是——或应该是——一种评估承诺和信心与技能和诚信的方式，需要发展出可以被那些必须与AI一起工作的人使用的基准。这不能仅限于具有AI评估技能的人。这些技能是稀有的，即使它们存在。

这就是游戏的作用所在。它是一种非常人性化的评估技术，结果很容易传达给他人。最终分数很重要，但不如游戏体验的情感重要，正是这种情感驱动了人们关心和想要讲述的故事。

如果你确实要求ChatGPT玩井字游戏，你可以事先问它对自己优势的看法，然后试着向它解释它哪里出错了。你最终会得到一个关于这项技术的故事，你可以告诉任何人，并且会想要讲述。

这正是我们需要防御AI炒作的东西。与IT同行谈论某项技术有多糟糕是没有用的；它必须深入文化，让你的阿姨、侄子和CEO也知道。找到创建类似游戏环境的方法，让人们和AI都能参与其中是一个挑战，但CMU的论文提供了很多指导。毕竟，商业游戏化并非没有其他应用。

如果AI行业有更有根据的信心而不是虚张声势和希望，它应该全力以赴。之前的AI寒冬更多是通过情感而不是电子表格发生的：AI即将取得伟大成就并且更多投资将实现这一目标的感知随着其他故事变得更有说服力而消退。证明AI智能体能够以人们本质上欣赏的方式与之合作只能是好事，对吧？

它不这么认为这本身就是一个好故事。它想要将其技术置于商业核心，但缺陷如此之深，以至于它甚至无法获得副助理泡茶员的工作，这是另一个故事。找到在技术殿堂之外讲述这些故事的方法确实是一件非常严肃的事情。游戏开始。

来源：The Register

0赞

好文章，需要你的鼓励

AI在游戏中的表现暴露了其致命弱点

来源：The Register

2025

07/07

19:12

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

通过截图添加日历事件展现了AI的巅峰应用

我们最常用的AI聊天机器人，以及使用方式调研报告

智能体AI将在三大行业发挥重要作用

2025年至少36家新科技独角兽企业诞生

抛开炒作，真正的AI智能体解决有界问题而非开放世界幻想

Brex如何通过拥抱"混乱"来跟上AI发展步伐

AI优先企业：可扩展互联AI平台的迫切需求

亚马逊为Anthropic构建大规模AI超级集群Project Rainier项目揭秘

达索系统收购Ascon Qube技术加速虚拟孪生产品布局

后Transformer模型系统能够推动变革

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: