周二下午,Anthropic 在 Twitch 上启动了"Claude 玩宝可梦"直播,展示其最新的 AI 模型 Claude 3.7 Sonnet 游玩《宝可梦红版》的过程。这成为了一个引人入胜的实验,展现了当今 AI 技术的能力以及人们对此的反应。
AI 研究人员曾使用各种视频游戏来测试新模型,从《街头霸王》到《你画我猜》,但这往往更多是为了娱乐而非实用。不过,Anthropic 表示,宝可梦proved成为了 Claude 3.7 Sonnet 的有效测试基准,这个模型能够有效地"思考"游戏中的各种谜题。
与 OpenAI 的 o3-mini 和 DeepSeek 的 R1 类似,Claude 3.7 Sonnet 能够通过"推理"解决复杂挑战,比如玩一款专为儿童设计的电子游戏。虽然其前身 Claude 3.5 Sonnet 在游戏开始时就失败了——无法走出真新镇的玩家家门,但 Claude 3.7 Sonnet 已经成功获得了三个道馆徽章。
然而,新版 Claude 仍然会遇到困难。在 Twitch 直播数小时后,模型被一堵岩石墙挡住了去路,无论如何都无法穿过。一位 Twitch 用户这样总结道:"谁会赢,是投入了数千小时编程的 AI,还是一堵石墙?"最终,Claude 意识到可以绕过这堵墙。
虽然看着 Claude 像呆呆兽一样缓慢地探索《宝可梦红版》,每一步都要深思熟虑,确实令人有些着急。但这个过程又十分引人入胜。直播画面左侧显示着 Claude 的"思考过程",右侧则是实时游戏画面。
在某个时刻,Claude 试图在大木博士的实验室里找到他,但因为场景中有其他 NPC 而感到困惑。"我注意到在我下方出现了一个新角色——一个黑发穿白大褂的角色,位于坐标 (2, 10),"Claude 写道,"这可能是大木博士!让我下去和他谈谈。"随后,Claude 错误地与一个之前已经交谈过多次的 NPC 对话,而不是博士。Twitch 聊天室里的上千名观众中,有些人开始变得焦躁。但那些观看时间较长的观众则显得不那么担心。
"大家冷静,"一位观众在聊天室写道,"在此之前我们已经进出大木博士的实验室十次才弄明白该怎么继续。"
对资深 Twitch 用户来说,Anthropic 的这次直播格式可能会唤起怀念。十多年前,数百万人曾在一个名为"Twitch 玩宝可梦"的首创性在线社交实验中共同游玩《宝可梦红版》。每个用户都可以通过 Twitch 聊天来控制角色,这自然导致了混乱的游戏过程。
一些 AI 研究人员表示"Twitch 玩宝可梦"启发了他们的工作。2023 年 10 月,西雅图软件工程师 Peter Whidden 发布了一段 YouTube 视频,详细介绍他如何训练强化学习算法来玩宝可梦。他的 AI 花了超过 50,000 小时才学会如何成功游玩,其中一个挑战是 AI 更喜欢欣赏像素化的游戏场景,而不是实际玩游戏。
像 Whidden 和 Anthropic 这样的 AI 驱动的"Twitch 玩宝可梦"重现虽然很有趣,但也让人感到些许惆怅。原版直播之所以成为 Twitch 历史上的重要时刻,是因为它以一种意想不到的方式将人们联系在一起。大家都是同一个团队,共同努力让游戏角色停止原地打转,真正推进游戏进程。
到了 2025 年,我们似乎不再是队友,而是成了旁观者,看着 AI 模型试图玩一个我们很多人在五岁时就已经掌握的游戏。这是一个由 AI 引发的缩影,反映了一个更大的趋势:我们的在线体验正从共享的群体活动转变为更加孤独的个人行为。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。