Anthropic 的 Claude AI 正在 Twitch 上玩宝可梦——进展缓慢

Anthropic 在 Twitch 上直播其最新 AI 模型 Claude 3.7 Sonnet 玩《宝可梦红》游戏。这场直播成为了一个引人入胜的实验，展示了当今 AI 技术的能力及人们对此的反应。尽管 Claude 在游戏中表现缓慢且常陷入困境，但仍吸引了大量观众关注，引发了对 AI 发展及其社会影响的思考。

周二下午，Anthropic 在 Twitch 上启动了"Claude 玩宝可梦"直播，展示其最新的 AI 模型 Claude 3.7 Sonnet 游玩《宝可梦红版》的过程。这成为了一个引人入胜的实验，展现了当今 AI 技术的能力以及人们对此的反应。

AI 研究人员曾使用各种视频游戏来测试新模型，从《街头霸王》到《你画我猜》，但这往往更多是为了娱乐而非实用。不过，Anthropic 表示，宝可梦proved成为了 Claude 3.7 Sonnet 的有效测试基准，这个模型能够有效地"思考"游戏中的各种谜题。

与 OpenAI 的 o3-mini 和 DeepSeek 的 R1 类似，Claude 3.7 Sonnet 能够通过"推理"解决复杂挑战，比如玩一款专为儿童设计的电子游戏。虽然其前身 Claude 3.5 Sonnet 在游戏开始时就失败了——无法走出真新镇的玩家家门，但 Claude 3.7 Sonnet 已经成功获得了三个道馆徽章。

然而，新版 Claude 仍然会遇到困难。在 Twitch 直播数小时后，模型被一堵岩石墙挡住了去路，无论如何都无法穿过。一位 Twitch 用户这样总结道："谁会赢，是投入了数千小时编程的 AI，还是一堵石墙？"最终，Claude 意识到可以绕过这堵墙。

虽然看着 Claude 像呆呆兽一样缓慢地探索《宝可梦红版》，每一步都要深思熟虑，确实令人有些着急。但这个过程又十分引人入胜。直播画面左侧显示着 Claude 的"思考过程"，右侧则是实时游戏画面。

在某个时刻，Claude 试图在大木博士的实验室里找到他，但因为场景中有其他 NPC 而感到困惑。"我注意到在我下方出现了一个新角色——一个黑发穿白大褂的角色，位于坐标 (2, 10)，"Claude 写道，"这可能是大木博士！让我下去和他谈谈。"随后，Claude 错误地与一个之前已经交谈过多次的 NPC 对话，而不是博士。Twitch 聊天室里的上千名观众中，有些人开始变得焦躁。但那些观看时间较长的观众则显得不那么担心。

"大家冷静，"一位观众在聊天室写道，"在此之前我们已经进出大木博士的实验室十次才弄明白该怎么继续。"

对资深 Twitch 用户来说，Anthropic 的这次直播格式可能会唤起怀念。十多年前，数百万人曾在一个名为"Twitch 玩宝可梦"的首创性在线社交实验中共同游玩《宝可梦红版》。每个用户都可以通过 Twitch 聊天来控制角色，这自然导致了混乱的游戏过程。

一些 AI 研究人员表示"Twitch 玩宝可梦"启发了他们的工作。2023 年 10 月，西雅图软件工程师 Peter Whidden 发布了一段 YouTube 视频，详细介绍他如何训练强化学习算法来玩宝可梦。他的 AI 花了超过 50,000 小时才学会如何成功游玩，其中一个挑战是 AI 更喜欢欣赏像素化的游戏场景，而不是实际玩游戏。

像 Whidden 和 Anthropic 这样的 AI 驱动的"Twitch 玩宝可梦"重现虽然很有趣，但也让人感到些许惆怅。原版直播之所以成为 Twitch 历史上的重要时刻，是因为它以一种意想不到的方式将人们联系在一起。大家都是同一个团队，共同努力让游戏角色停止原地打转，真正推进游戏进程。

到了 2025 年，我们似乎不再是队友，而是成了旁观者，看着 AI 模型试图玩一个我们很多人在五岁时就已经掌握的游戏。这是一个由 AI 引发的缩影，反映了一个更大的趋势：我们的在线体验正从共享的群体活动转变为更加孤独的个人行为。

来源：Techcrunch

0赞

好文章，需要你的鼓励

Anthropic 的 Claude AI 正在 Twitch 上玩宝可梦——进展缓慢

来源：Techcrunch

2025

02/26

18:34

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

企业用好Agent，关键不在“买一个智能体”｜原点Talk 分享会

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

基于 AI 的 API 被证明极易遭受攻击

Manychat获1.4亿美元资金 助力商业消息平台引入AI

Hitachi Vantara 添加了 Index Engines 的 AI 勒索软件检测

Rivian 推举 Cohere CEO 加入董事会，最新迹象显示该电动车制造商对 AI 持乐观态度

Camunda为Agentic AI 调度谱写新篇章

Superpower 希望在症状显现之前帮助人们检测并解决健康问题

为 agentic AI 构建安全的云基础设施

AI 令人震惊的转变：从工作工具到数字心理咨询师和生活教练

Meta 将使用 AI 将青少年置于更严格的账户设置

针对跑步者和运动员的 AI 探索：我们正取得巨大进展

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Manychat获1.4亿美元资金助力商业消息平台引入AI