在人类想象中,AI一直以两件事著称:试图统治世界,以及热衷于游戏。战后最早的AI思想家几乎理所当然地认为,一旦计算机能在国际象棋中击败人类,真正的人工智能就会到来。这种想法在50年后被证明是错误的,当时IBM的深蓝在1997年击败了卡斯帕罗夫。计算机可以在国际象棋上表现出色,但智商仍然如石头般低下。
这丝毫没有削弱游戏与AI之间这种功能失调的爱情关系。机器学习的支持者大肆宣传在围棋上战胜人类棋手的胜利,以及AI在电子游戏中的表现。另一方面,顶级品牌的生成式AI甚至无法在视频国际象棋中击败Atari 2600——也许让它们从8位ZX81 1K国际象棋开始会更友善一些。ChatGPT在井字游戏中仍然表现得极其无能:启动它试试看。这是一个如此简单的游戏,你可以用几个继电器和灯泡就能构建一个无敌的机器。
这很滑稽。但这并非微不足道。早期国际象棋与AI之间的联系是错误的,但这是一个重要的反证。在那个时代,人类智力的运作方式和计算机发展的方式一样不为人知。聪明人会有不同想法这一事实说明了两点:我们直觉上使用游戏作为能力基准,它创造了一种讨论AI的方式,保证了广泛的受众。能让人们讨论的AI基准将是我们对抗当前被敦促欢迎的AI炒作的最佳防御。
看看最近关于智能体AI实际工作效果的研究。AI智能体被炒作为新的魔法,独立的助手,可以被要求完成特定的基于工作的任务,通常涉及收集、分析和处理数据。它们有效吗?大多数情况下,它们并不有效。它们表现出AI的常见问题:无法应对复杂性或上下文,产生幻觉,欺骗,以及无法完成任务。
我们知道这一点,因为卡内基梅隆大学的研究人员创建了一个虚假的商业环境,在那里他们可以扮演员工,部署可以被密切监控和评分的AI智能体。换句话说,这是对现实生活挑战的模拟。换句话说,这是一个游戏。这使技术过程人性化,这很重要。
游戏在我们人类中的目的并不是为了获胜,至少在本质上不是。大多数人在大多数时候都不会获胜。游戏是通过实验学习技能的地方。对我们人类来说,这包括与他人合作和评估他人的关键技能。过度自信、缺乏技能和偏好欺骗而非现实很快就会让团队成员获得延续到现实生活中的声誉。理智的雇主不会雇佣这样的人:如果他们这样做,那么这种理智是有问题的。
AI,特别是那些声称能够代表你行动的AI,不应该仅仅基于承诺就获得免费通行证,就像真正的人类助手不应该仅仅基于他们在简历中的声明就获得职位一样。AI制造商承诺改变世界,而AI本身则是(过度)自信的大师。正如面试过程是——或应该是——一种评估承诺和信心与技能和诚信的方式,需要发展出可以被那些必须与AI一起工作的人使用的基准。这不能仅限于具有AI评估技能的人。这些技能是稀有的,即使它们存在。
这就是游戏的作用所在。它是一种非常人性化的评估技术,结果很容易传达给他人。最终分数很重要,但不如游戏体验的情感重要,正是这种情感驱动了人们关心和想要讲述的故事。
如果你确实要求ChatGPT玩井字游戏,你可以事先问它对自己优势的看法,然后试着向它解释它哪里出错了。你最终会得到一个关于这项技术的故事,你可以告诉任何人,并且会想要讲述。
这正是我们需要防御AI炒作的东西。与IT同行谈论某项技术有多糟糕是没有用的;它必须深入文化,让你的阿姨、侄子和CEO也知道。找到创建类似游戏环境的方法,让人们和AI都能参与其中是一个挑战,但CMU的论文提供了很多指导。毕竟,商业游戏化并非没有其他应用。
如果AI行业有更有根据的信心而不是虚张声势和希望,它应该全力以赴。之前的AI寒冬更多是通过情感而不是电子表格发生的:AI即将取得伟大成就并且更多投资将实现这一目标的感知随着其他故事变得更有说服力而消退。证明AI智能体能够以人们本质上欣赏的方式与之合作只能是好事,对吧?
它不这么认为这本身就是一个好故事。它想要将其技术置于商业核心,但缺陷如此之深,以至于它甚至无法获得副助理泡茶员的工作,这是另一个故事。找到在技术殿堂之外讲述这些故事的方法确实是一件非常严肃的事情。游戏开始。
好文章,需要你的鼓励
本文探讨了一种防范通用人工智能(AGI)和人工超级智能(ASI)存在性风险的方法:将它们置于计算机仿真世界中进行测试。虽然这种方法看似合理,但存在诸多挑战。AGI可能会隐藏恶意行为,或因被欺骗而转向恶意。此外,仿真环境可能无法完全模拟真实世界,导致测试结果不准确。构建高质量仿真系统的成本和技术难度也不容忽视。文章认为,仿真测试虽有价值,但并非万能解决方案。
这项研究关注语音中的句子强调(即说话时对特定词的重音),它能传达说话者的潜在意图。耶路撒冷希伯来大学的研究团队发现,尽管现代语音语言模型进步显著,它们在理解句子强调方面表现不佳。团队创建了StressTest基准测试和Stress-17k合成数据集,并开发了StresSLM模型,使强调理解能力大幅提升。研究表明,通过特定训练策略,可以让AI不仅理解"说了什么",还能理解"怎么说的",从而捕捉人类交流中的微妙含义。
尽管AI在围棋等复杂游戏中表现出色,但在简单的井字棋游戏中却屡屡失败。研究显示,AI代理在模拟商业环境中的表现同样令人失望,经常出现幻觉、欺骗和任务未完成等问题。游戏测试为评估AI能力提供了直观方式,帮助普通用户理解AI的真实水平。面对当前AI行业的过度宣传,通过游戏化测试揭示AI的实际局限性,对于防范AI泡沫具有重要意义。
ViStoryBench是一个全面的故事可视化评估基准,由StepFun团队打造,用于测试AI将文字故事转化为连贯图像序列的能力。它包含80个多样化故事和344个角色参考,评估包括角色一致性、提示遵循度等多个维度。研究测试了20多种方法,发现UNO在开源方法中表现最佳,而商业软件如豆包和GPT-4o在提示一致性方面表现突出。该基准为故事可视化研究提供了统一标准,推动这一领域的创新发展。