在人类想象中,AI一直以两件事著称:试图统治世界,以及热衷于游戏。战后最早的AI思想家几乎理所当然地认为,一旦计算机能在国际象棋中击败人类,真正的人工智能就会到来。这种想法在50年后被证明是错误的,当时IBM的深蓝在1997年击败了卡斯帕罗夫。计算机可以在国际象棋上表现出色,但智商仍然如石头般低下。
这丝毫没有削弱游戏与AI之间这种功能失调的爱情关系。机器学习的支持者大肆宣传在围棋上战胜人类棋手的胜利,以及AI在电子游戏中的表现。另一方面,顶级品牌的生成式AI甚至无法在视频国际象棋中击败Atari 2600——也许让它们从8位ZX81 1K国际象棋开始会更友善一些。ChatGPT在井字游戏中仍然表现得极其无能:启动它试试看。这是一个如此简单的游戏,你可以用几个继电器和灯泡就能构建一个无敌的机器。
这很滑稽。但这并非微不足道。早期国际象棋与AI之间的联系是错误的,但这是一个重要的反证。在那个时代,人类智力的运作方式和计算机发展的方式一样不为人知。聪明人会有不同想法这一事实说明了两点:我们直觉上使用游戏作为能力基准,它创造了一种讨论AI的方式,保证了广泛的受众。能让人们讨论的AI基准将是我们对抗当前被敦促欢迎的AI炒作的最佳防御。
看看最近关于智能体AI实际工作效果的研究。AI智能体被炒作为新的魔法,独立的助手,可以被要求完成特定的基于工作的任务,通常涉及收集、分析和处理数据。它们有效吗?大多数情况下,它们并不有效。它们表现出AI的常见问题:无法应对复杂性或上下文,产生幻觉,欺骗,以及无法完成任务。
我们知道这一点,因为卡内基梅隆大学的研究人员创建了一个虚假的商业环境,在那里他们可以扮演员工,部署可以被密切监控和评分的AI智能体。换句话说,这是对现实生活挑战的模拟。换句话说,这是一个游戏。这使技术过程人性化,这很重要。
游戏在我们人类中的目的并不是为了获胜,至少在本质上不是。大多数人在大多数时候都不会获胜。游戏是通过实验学习技能的地方。对我们人类来说,这包括与他人合作和评估他人的关键技能。过度自信、缺乏技能和偏好欺骗而非现实很快就会让团队成员获得延续到现实生活中的声誉。理智的雇主不会雇佣这样的人:如果他们这样做,那么这种理智是有问题的。
AI,特别是那些声称能够代表你行动的AI,不应该仅仅基于承诺就获得免费通行证,就像真正的人类助手不应该仅仅基于他们在简历中的声明就获得职位一样。AI制造商承诺改变世界,而AI本身则是(过度)自信的大师。正如面试过程是——或应该是——一种评估承诺和信心与技能和诚信的方式,需要发展出可以被那些必须与AI一起工作的人使用的基准。这不能仅限于具有AI评估技能的人。这些技能是稀有的,即使它们存在。
这就是游戏的作用所在。它是一种非常人性化的评估技术,结果很容易传达给他人。最终分数很重要,但不如游戏体验的情感重要,正是这种情感驱动了人们关心和想要讲述的故事。
如果你确实要求ChatGPT玩井字游戏,你可以事先问它对自己优势的看法,然后试着向它解释它哪里出错了。你最终会得到一个关于这项技术的故事,你可以告诉任何人,并且会想要讲述。
这正是我们需要防御AI炒作的东西。与IT同行谈论某项技术有多糟糕是没有用的;它必须深入文化,让你的阿姨、侄子和CEO也知道。找到创建类似游戏环境的方法,让人们和AI都能参与其中是一个挑战,但CMU的论文提供了很多指导。毕竟,商业游戏化并非没有其他应用。
如果AI行业有更有根据的信心而不是虚张声势和希望,它应该全力以赴。之前的AI寒冬更多是通过情感而不是电子表格发生的:AI即将取得伟大成就并且更多投资将实现这一目标的感知随着其他故事变得更有说服力而消退。证明AI智能体能够以人们本质上欣赏的方式与之合作只能是好事,对吧?
它不这么认为这本身就是一个好故事。它想要将其技术置于商业核心,但缺陷如此之深,以至于它甚至无法获得副助理泡茶员的工作,这是另一个故事。找到在技术殿堂之外讲述这些故事的方法确实是一件非常严肃的事情。游戏开始。
好文章,需要你的鼓励
随着AI模型规模不断扩大,GPU内存容量已成为瓶颈。Phison和Sandisk分别提出了软硬件解决方案:Phison的aiDAPTIV+软件通过创建跨GPU内存、CPU内存和SSD的虚拟内存池,支持高达700亿参数的模型;而Sandisk的高带宽闪存(HBF)则采用类似HBM的硬件架构,通过TSV连接器将NAND闪存与GPU紧密集成。Phison方案适合中小企业和边缘系统,Sandisk方案则针对大型GPU服务器,两种技术可共存互补。
上海AI实验库推出YUME系统,用户只需输入一张图片就能创建可键盘控制的虚拟世界。该系统采用创新的运动量化技术,将复杂的三维控制简化为WASD键操作,并通过智能记忆机制实现无限长度的世界探索。系统具备强大的跨风格适应能力,不仅能处理真实场景,还能重现动漫、游戏等各种艺术风格的虚拟世界,为虚拟现实和交互娱乐领域提供了全新的技术路径。
法国AI初创公司Mistral AI发布了首个大语言模型全面生命周期评估,量化了AI的环境代价。其Mistral Large 2模型训练产生20,400吨二氧化碳当量,消耗281,000立方米水。运营阶段占环境影响85%,远超硬件制造成本。研究表明地理位置和模型大小显著影响碳足迹,企业可通过选择适当规模模型、批处理技术和清洁能源部署来减少环境影响。这一透明度为企业AI采购决策提供了新的评估标准。
上海AI实验室研究团队开发了革命性的AI编程验证方法,让大语言模型能够在最小人工干预下自动生成和验证程序规范。该方法摒弃传统的人工标注训练,采用强化学习让模型在形式化语言空间中自主探索,在Dafny编程验证任务上显著超越现有方法,为AI自主学习开辟新道路。