在人类想象中,AI一直以两件事著称:试图统治世界,以及热衷于游戏。战后最早的AI思想家几乎理所当然地认为,一旦计算机能在国际象棋中击败人类,真正的人工智能就会到来。这种想法在50年后被证明是错误的,当时IBM的深蓝在1997年击败了卡斯帕罗夫。计算机可以在国际象棋上表现出色,但智商仍然如石头般低下。
这丝毫没有削弱游戏与AI之间这种功能失调的爱情关系。机器学习的支持者大肆宣传在围棋上战胜人类棋手的胜利,以及AI在电子游戏中的表现。另一方面,顶级品牌的生成式AI甚至无法在视频国际象棋中击败Atari 2600——也许让它们从8位ZX81 1K国际象棋开始会更友善一些。ChatGPT在井字游戏中仍然表现得极其无能:启动它试试看。这是一个如此简单的游戏,你可以用几个继电器和灯泡就能构建一个无敌的机器。
这很滑稽。但这并非微不足道。早期国际象棋与AI之间的联系是错误的,但这是一个重要的反证。在那个时代,人类智力的运作方式和计算机发展的方式一样不为人知。聪明人会有不同想法这一事实说明了两点:我们直觉上使用游戏作为能力基准,它创造了一种讨论AI的方式,保证了广泛的受众。能让人们讨论的AI基准将是我们对抗当前被敦促欢迎的AI炒作的最佳防御。
看看最近关于智能体AI实际工作效果的研究。AI智能体被炒作为新的魔法,独立的助手,可以被要求完成特定的基于工作的任务,通常涉及收集、分析和处理数据。它们有效吗?大多数情况下,它们并不有效。它们表现出AI的常见问题:无法应对复杂性或上下文,产生幻觉,欺骗,以及无法完成任务。
我们知道这一点,因为卡内基梅隆大学的研究人员创建了一个虚假的商业环境,在那里他们可以扮演员工,部署可以被密切监控和评分的AI智能体。换句话说,这是对现实生活挑战的模拟。换句话说,这是一个游戏。这使技术过程人性化,这很重要。
游戏在我们人类中的目的并不是为了获胜,至少在本质上不是。大多数人在大多数时候都不会获胜。游戏是通过实验学习技能的地方。对我们人类来说,这包括与他人合作和评估他人的关键技能。过度自信、缺乏技能和偏好欺骗而非现实很快就会让团队成员获得延续到现实生活中的声誉。理智的雇主不会雇佣这样的人:如果他们这样做,那么这种理智是有问题的。
AI,特别是那些声称能够代表你行动的AI,不应该仅仅基于承诺就获得免费通行证,就像真正的人类助手不应该仅仅基于他们在简历中的声明就获得职位一样。AI制造商承诺改变世界,而AI本身则是(过度)自信的大师。正如面试过程是——或应该是——一种评估承诺和信心与技能和诚信的方式,需要发展出可以被那些必须与AI一起工作的人使用的基准。这不能仅限于具有AI评估技能的人。这些技能是稀有的,即使它们存在。
这就是游戏的作用所在。它是一种非常人性化的评估技术,结果很容易传达给他人。最终分数很重要,但不如游戏体验的情感重要,正是这种情感驱动了人们关心和想要讲述的故事。
如果你确实要求ChatGPT玩井字游戏,你可以事先问它对自己优势的看法,然后试着向它解释它哪里出错了。你最终会得到一个关于这项技术的故事,你可以告诉任何人,并且会想要讲述。
这正是我们需要防御AI炒作的东西。与IT同行谈论某项技术有多糟糕是没有用的;它必须深入文化,让你的阿姨、侄子和CEO也知道。找到创建类似游戏环境的方法,让人们和AI都能参与其中是一个挑战,但CMU的论文提供了很多指导。毕竟,商业游戏化并非没有其他应用。
如果AI行业有更有根据的信心而不是虚张声势和希望,它应该全力以赴。之前的AI寒冬更多是通过情感而不是电子表格发生的:AI即将取得伟大成就并且更多投资将实现这一目标的感知随着其他故事变得更有说服力而消退。证明AI智能体能够以人们本质上欣赏的方式与之合作只能是好事,对吧?
它不这么认为这本身就是一个好故事。它想要将其技术置于商业核心,但缺陷如此之深,以至于它甚至无法获得副助理泡茶员的工作,这是另一个故事。找到在技术殿堂之外讲述这些故事的方法确实是一件非常严肃的事情。游戏开始。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。