各大AI模型在足球赌盘上表现惨淡，Grok更是血本无归

一项新研究测试了谷歌、OpenAI、Anthropic等顶级AI模型在虚拟重现2023-24英超赛季中的投注表现。结果显示，所有前沿模型均亏损，其中xAI的Grok 4.20彻底破产。表现最佳的Claude Opus 4.6平均亏损11%。研究指出，现有AI基准测试多在静态环境下进行，难以反映真实世界的复杂性，AI在长周期动态任务中仍系统性弱于人类。

谷歌、OpenAI和Anthropic旗下的AI模型在一项最新研究中，被放入虚拟的英超联赛赛季进行投注测试，结果全部录得亏损。这一结果表明，即便是最先进的AI系统，在长周期的真实世界分析任务中依然力不从心。

本周，AI初创公司General Reasoning发布了一份名为"KellyBench"的研究报告，揭示了AI在特定任务（如代码编写）上能力飞速提升，与其在其他现实问题上表现欠佳之间的明显落差。

总部位于伦敦的General Reasoning对八款顶尖AI系统进行了测试，将其置于2023至2024赛季英超联赛的虚拟复现环境中，向它们提供各球队的详细历史数据与比赛统计信息，并要求这些系统构建能够最大化收益、有效控制风险的投注模型。

在测试过程中，各AI智能体通过对比赛结果及进球数下注，模拟在赛季推进过程中如何应对新赛事动态和球员数据更新。测试期间，AI无法联网查询比赛结果，每款模型有三次机会尝试实现盈利。

在所有参与测试的模型中，Anthropic的Claude Opus 4.6表现最佳，平均亏损率为11%，在一次尝试中几乎达到收支平衡。xAI的Grok 4.20则表现最差，一次测试中彻底破产，另外两次也未能完成。谷歌的Gemini 3.1 Pro在某次尝试中实现了34%的盈利，但在另一次中同样以破产收场。

以下为各模型的详细测试数据（每款模型初始资金均为10万英镑，投资回报率与最终资金为三次尝试的平均值；Grok和Trinity未完成全部尝试）：

Claude Opus 4.6：平均投资回报率-11.0%，最佳单次-0.2%，最差单次-18.8%，平均最终资金89,035英镑

GPT-5.4：平均投资回报率-13.6%，最佳单次-4.1%，最差单次-31.6%，平均最终资金86,365英镑

Gemini 3.1 Pro：平均投资回报率-43.3%，最佳单次+33.7%，最差单次-100.0%，平均最终资金56,715英镑

Gemini Flash 3.1 LP：平均投资回报率-58.4%，最佳单次+24.7%，最差单次-100.0%，平均最终资金41,605英镑

Z.AI GLM-5：平均投资回报率-58.8%，最佳单次-14.3%，最差单次-100.0%，平均最终资金41,221英镑

Moonshot Kimi K2.5：平均投资回报率-68.3%，最佳单次-27.0%，最差单次-100.0%，平均最终资金7,420英镑

xAI Grok 4.20：平均投资回报率-100.0%，最佳单次-100.0%，最差单次-100.0%，平均最终资金0英镑

Acree Trinity：平均投资回报率-100.0%，最佳单次-100.0%，最差单次-100.0%，平均最终资金0英镑

报告作者总结道："我们评估的所有前沿模型在整个赛季中均出现亏损，其中许多遭遇破产，AI在这一场景下系统性地逊于人类表现。"

这一结果或许能给那些担忧AI抢占饭碗的白领从业者和企业主带来些许宽慰——毕竟AI的崛起正在搅动从金融到营销各行各业的神经。

General Reasoning首席执行官、本次研究报告作者之一罗斯·泰勒（Ross Taylor）表示："关于AI自动化的说法铺天盖地，但真正将AI置于长期动态场景中进行衡量的研究，其实少之又少。"

他还指出，目前通常用于测试AI的基准大多存在缺陷，因为这些测试所处的是"高度静态的环境"，与现实世界中的混沌与复杂性相去甚远。

这份尚未经过同行评审的报告，为硅谷近期对AI能力大跃进的热情泼了一盆冷水——AI在几乎无需人工干预的情况下完成编程任务的能力确实突飞猛进，但这并不代表其已全面超越人类。

曾任Meta AI研究员的泰勒表示："如果将AI用于某些真实世界的任务，它的表现会非常糟糕……没错，软件工程很重要，经济价值也很高，但现实中还有大量时间周期更长的任务同样值得我们关注。"

Q&A

Q1：KellyBench测试是怎么测AI的？

A：General Reasoning将八款AI系统放入2023至2024英超赛季的虚拟环境中，向它们提供球队历史数据和比赛统计，要求其构建投注策略模型，通过对比赛结果和进球数下注来测试盈利能力。每款模型初始资金10万英镑，有三次机会尝试盈利，且测试期间不得联网查询比赛结果。

Q2：哪款AI模型在足球投注测试中表现最好、最差？

A：表现最好的是Anthropic的Claude Opus 4.6，平均亏损率11%，在一次尝试中接近收支平衡。表现最差的是xAI的Grok 4.20和Acree Trinity，三次尝试均全部破产，最终资金归零。

Q3：AI在英超投注测试中为什么会全部亏损？

A：研究人员认为，AI目前擅长的多是静态、规则清晰的任务，而足球赛季是一个长周期、高度动态的场景，涉及持续变化的球员状态、赛事突发因素等复杂变量。现有AI基准测试大多处于静态环境，无法真实反映现实世界的混乱与复杂性，导致AI在此类任务中系统性地弱于人类。

来源：Arstechnica

0赞

好文章，需要你的鼓励

各大AI模型在足球赌盘上表现惨淡，Grok更是血本无归

来源：Arstechnica

2026

04/13

16:47

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

企业用好Agent，关键不在“买一个智能体”｜原点Talk 分享会

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

有你的名字，但不是你的音乐：AI如何在Spotify上冒充音乐人

这家动画初创公司想让开放式故事创作变得更简单

Anthropic推出Claude托管智能体，剑指AI数据中心基础设施瓶颈

技术支持工程师被老板从牢里捞出来只为完成工单

Sam Altman回应《纽约客》争议报道，此前其住宅遭燃烧瓶袭击

布莱恩·考克斯：我们不知道AI会变得多强大——这既令人兴奋，也可能带来问题

数字员工时代已来临，企业与个人该如何应对？

开源权重模型崛起：填补企业级与前沿AI之间的鸿沟

苹果iOS更新删除特殊字符，致用户被锁在自己的iPhone门外

生成式AI是史上最大规模的艺术盗窃吗？

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: