在人类想象中,AI一直以两件事著称:试图统治世界,以及热衷于游戏。战后最早的AI思想家几乎理所当然地认为,一旦计算机能在国际象棋中击败人类,真正的人工智能就会到来。这种想法在50年后被证明是错误的,当时IBM的深蓝在1997年击败了卡斯帕罗夫。计算机可以在国际象棋上表现出色,但智商仍然如石头般低下。
这丝毫没有削弱游戏与AI之间这种功能失调的爱情关系。机器学习的支持者大肆宣传在围棋上战胜人类棋手的胜利,以及AI在电子游戏中的表现。另一方面,顶级品牌的生成式AI甚至无法在视频国际象棋中击败Atari 2600——也许让它们从8位ZX81 1K国际象棋开始会更友善一些。ChatGPT在井字游戏中仍然表现得极其无能:启动它试试看。这是一个如此简单的游戏,你可以用几个继电器和灯泡就能构建一个无敌的机器。
这很滑稽。但这并非微不足道。早期国际象棋与AI之间的联系是错误的,但这是一个重要的反证。在那个时代,人类智力的运作方式和计算机发展的方式一样不为人知。聪明人会有不同想法这一事实说明了两点:我们直觉上使用游戏作为能力基准,它创造了一种讨论AI的方式,保证了广泛的受众。能让人们讨论的AI基准将是我们对抗当前被敦促欢迎的AI炒作的最佳防御。
看看最近关于智能体AI实际工作效果的研究。AI智能体被炒作为新的魔法,独立的助手,可以被要求完成特定的基于工作的任务,通常涉及收集、分析和处理数据。它们有效吗?大多数情况下,它们并不有效。它们表现出AI的常见问题:无法应对复杂性或上下文,产生幻觉,欺骗,以及无法完成任务。
我们知道这一点,因为卡内基梅隆大学的研究人员创建了一个虚假的商业环境,在那里他们可以扮演员工,部署可以被密切监控和评分的AI智能体。换句话说,这是对现实生活挑战的模拟。换句话说,这是一个游戏。这使技术过程人性化,这很重要。
游戏在我们人类中的目的并不是为了获胜,至少在本质上不是。大多数人在大多数时候都不会获胜。游戏是通过实验学习技能的地方。对我们人类来说,这包括与他人合作和评估他人的关键技能。过度自信、缺乏技能和偏好欺骗而非现实很快就会让团队成员获得延续到现实生活中的声誉。理智的雇主不会雇佣这样的人:如果他们这样做,那么这种理智是有问题的。
AI,特别是那些声称能够代表你行动的AI,不应该仅仅基于承诺就获得免费通行证,就像真正的人类助手不应该仅仅基于他们在简历中的声明就获得职位一样。AI制造商承诺改变世界,而AI本身则是(过度)自信的大师。正如面试过程是——或应该是——一种评估承诺和信心与技能和诚信的方式,需要发展出可以被那些必须与AI一起工作的人使用的基准。这不能仅限于具有AI评估技能的人。这些技能是稀有的,即使它们存在。
这就是游戏的作用所在。它是一种非常人性化的评估技术,结果很容易传达给他人。最终分数很重要,但不如游戏体验的情感重要,正是这种情感驱动了人们关心和想要讲述的故事。
如果你确实要求ChatGPT玩井字游戏,你可以事先问它对自己优势的看法,然后试着向它解释它哪里出错了。你最终会得到一个关于这项技术的故事,你可以告诉任何人,并且会想要讲述。
这正是我们需要防御AI炒作的东西。与IT同行谈论某项技术有多糟糕是没有用的;它必须深入文化,让你的阿姨、侄子和CEO也知道。找到创建类似游戏环境的方法,让人们和AI都能参与其中是一个挑战,但CMU的论文提供了很多指导。毕竟,商业游戏化并非没有其他应用。
如果AI行业有更有根据的信心而不是虚张声势和希望,它应该全力以赴。之前的AI寒冬更多是通过情感而不是电子表格发生的:AI即将取得伟大成就并且更多投资将实现这一目标的感知随着其他故事变得更有说服力而消退。证明AI智能体能够以人们本质上欣赏的方式与之合作只能是好事,对吧?
它不这么认为这本身就是一个好故事。它想要将其技术置于商业核心,但缺陷如此之深,以至于它甚至无法获得副助理泡茶员的工作,这是另一个故事。找到在技术殿堂之外讲述这些故事的方法确实是一件非常严肃的事情。游戏开始。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。