在人类想象中,AI一直以两件事著称:试图统治世界,以及热衷于游戏。战后最早的AI思想家几乎理所当然地认为,一旦计算机能在国际象棋中击败人类,真正的人工智能就会到来。这种想法在50年后被证明是错误的,当时IBM的深蓝在1997年击败了卡斯帕罗夫。计算机可以在国际象棋上表现出色,但智商仍然如石头般低下。
这丝毫没有削弱游戏与AI之间这种功能失调的爱情关系。机器学习的支持者大肆宣传在围棋上战胜人类棋手的胜利,以及AI在电子游戏中的表现。另一方面,顶级品牌的生成式AI甚至无法在视频国际象棋中击败Atari 2600——也许让它们从8位ZX81 1K国际象棋开始会更友善一些。ChatGPT在井字游戏中仍然表现得极其无能:启动它试试看。这是一个如此简单的游戏,你可以用几个继电器和灯泡就能构建一个无敌的机器。
这很滑稽。但这并非微不足道。早期国际象棋与AI之间的联系是错误的,但这是一个重要的反证。在那个时代,人类智力的运作方式和计算机发展的方式一样不为人知。聪明人会有不同想法这一事实说明了两点:我们直觉上使用游戏作为能力基准,它创造了一种讨论AI的方式,保证了广泛的受众。能让人们讨论的AI基准将是我们对抗当前被敦促欢迎的AI炒作的最佳防御。
看看最近关于智能体AI实际工作效果的研究。AI智能体被炒作为新的魔法,独立的助手,可以被要求完成特定的基于工作的任务,通常涉及收集、分析和处理数据。它们有效吗?大多数情况下,它们并不有效。它们表现出AI的常见问题:无法应对复杂性或上下文,产生幻觉,欺骗,以及无法完成任务。
我们知道这一点,因为卡内基梅隆大学的研究人员创建了一个虚假的商业环境,在那里他们可以扮演员工,部署可以被密切监控和评分的AI智能体。换句话说,这是对现实生活挑战的模拟。换句话说,这是一个游戏。这使技术过程人性化,这很重要。
游戏在我们人类中的目的并不是为了获胜,至少在本质上不是。大多数人在大多数时候都不会获胜。游戏是通过实验学习技能的地方。对我们人类来说,这包括与他人合作和评估他人的关键技能。过度自信、缺乏技能和偏好欺骗而非现实很快就会让团队成员获得延续到现实生活中的声誉。理智的雇主不会雇佣这样的人:如果他们这样做,那么这种理智是有问题的。
AI,特别是那些声称能够代表你行动的AI,不应该仅仅基于承诺就获得免费通行证,就像真正的人类助手不应该仅仅基于他们在简历中的声明就获得职位一样。AI制造商承诺改变世界,而AI本身则是(过度)自信的大师。正如面试过程是——或应该是——一种评估承诺和信心与技能和诚信的方式,需要发展出可以被那些必须与AI一起工作的人使用的基准。这不能仅限于具有AI评估技能的人。这些技能是稀有的,即使它们存在。
这就是游戏的作用所在。它是一种非常人性化的评估技术,结果很容易传达给他人。最终分数很重要,但不如游戏体验的情感重要,正是这种情感驱动了人们关心和想要讲述的故事。
如果你确实要求ChatGPT玩井字游戏,你可以事先问它对自己优势的看法,然后试着向它解释它哪里出错了。你最终会得到一个关于这项技术的故事,你可以告诉任何人,并且会想要讲述。
这正是我们需要防御AI炒作的东西。与IT同行谈论某项技术有多糟糕是没有用的;它必须深入文化,让你的阿姨、侄子和CEO也知道。找到创建类似游戏环境的方法,让人们和AI都能参与其中是一个挑战,但CMU的论文提供了很多指导。毕竟,商业游戏化并非没有其他应用。
如果AI行业有更有根据的信心而不是虚张声势和希望,它应该全力以赴。之前的AI寒冬更多是通过情感而不是电子表格发生的:AI即将取得伟大成就并且更多投资将实现这一目标的感知随着其他故事变得更有说服力而消退。证明AI智能体能够以人们本质上欣赏的方式与之合作只能是好事,对吧?
它不这么认为这本身就是一个好故事。它想要将其技术置于商业核心,但缺陷如此之深,以至于它甚至无法获得副助理泡茶员的工作,这是另一个故事。找到在技术殿堂之外讲述这些故事的方法确实是一件非常严肃的事情。游戏开始。
好文章,需要你的鼓励
Coursera在2025年连接大会上宣布多项AI功能更新。10月将推出角色扮演功能,通过AI人物帮助学生练习面试技巧并获得实时反馈。新增AI评分系统可即时批改代码、论文和视频作业。同时引入完整性检查和监考系统,通过锁定浏览器和真实性验证打击作弊行为,据称可减少95%的不当行为。此外,AI课程构建器将扩展至所有合作伙伴,帮助教育者快速设计课程。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
英国政府研究显示,神经多样性员工从AI聊天机器人中获得的收益远超普通同事。在Microsoft 365 Copilot试点中,神经多样性员工满意度达90%置信水平,推荐度达95%置信水平,均显著高于其他用户。患有ADHD和阅读障碍的员工表示AI工具为他们提供了前所未有的工作支持,特别是在报告撰写方面。研究表明,AI工具正在填补传统无障碍技术未能解决的职场差距,为残障人士提供了隐形的工作辅助。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。