各大AI模型在足球赌盘上表现惨淡,Grok更是血本无归

一项新研究测试了谷歌、OpenAI、Anthropic等顶级AI模型在虚拟重现2023-24英超赛季中的投注表现。结果显示,所有前沿模型均亏损,其中xAI的Grok 4.20彻底破产。表现最佳的Claude Opus 4.6平均亏损11%。研究指出,现有AI基准测试多在静态环境下进行,难以反映真实世界的复杂性,AI在长周期动态任务中仍系统性弱于人类。

谷歌、OpenAI和Anthropic旗下的AI模型在一项最新研究中,被放入虚拟的英超联赛赛季进行投注测试,结果全部录得亏损。这一结果表明,即便是最先进的AI系统,在长周期的真实世界分析任务中依然力不从心。

本周,AI初创公司General Reasoning发布了一份名为"KellyBench"的研究报告,揭示了AI在特定任务(如代码编写)上能力飞速提升,与其在其他现实问题上表现欠佳之间的明显落差。

总部位于伦敦的General Reasoning对八款顶尖AI系统进行了测试,将其置于2023至2024赛季英超联赛的虚拟复现环境中,向它们提供各球队的详细历史数据与比赛统计信息,并要求这些系统构建能够最大化收益、有效控制风险的投注模型。

在测试过程中,各AI智能体通过对比赛结果及进球数下注,模拟在赛季推进过程中如何应对新赛事动态和球员数据更新。测试期间,AI无法联网查询比赛结果,每款模型有三次机会尝试实现盈利。

在所有参与测试的模型中,Anthropic的Claude Opus 4.6表现最佳,平均亏损率为11%,在一次尝试中几乎达到收支平衡。xAI的Grok 4.20则表现最差,一次测试中彻底破产,另外两次也未能完成。谷歌的Gemini 3.1 Pro在某次尝试中实现了34%的盈利,但在另一次中同样以破产收场。

以下为各模型的详细测试数据(每款模型初始资金均为10万英镑,投资回报率与最终资金为三次尝试的平均值;Grok和Trinity未完成全部尝试):

Claude Opus 4.6:平均投资回报率-11.0%,最佳单次-0.2%,最差单次-18.8%,平均最终资金89,035英镑

GPT-5.4:平均投资回报率-13.6%,最佳单次-4.1%,最差单次-31.6%,平均最终资金86,365英镑

Gemini 3.1 Pro:平均投资回报率-43.3%,最佳单次+33.7%,最差单次-100.0%,平均最终资金56,715英镑

Gemini Flash 3.1 LP:平均投资回报率-58.4%,最佳单次+24.7%,最差单次-100.0%,平均最终资金41,605英镑

Z.AI GLM-5:平均投资回报率-58.8%,最佳单次-14.3%,最差单次-100.0%,平均最终资金41,221英镑

Moonshot Kimi K2.5:平均投资回报率-68.3%,最佳单次-27.0%,最差单次-100.0%,平均最终资金7,420英镑

xAI Grok 4.20:平均投资回报率-100.0%,最佳单次-100.0%,最差单次-100.0%,平均最终资金0英镑

Acree Trinity:平均投资回报率-100.0%,最佳单次-100.0%,最差单次-100.0%,平均最终资金0英镑

报告作者总结道:"我们评估的所有前沿模型在整个赛季中均出现亏损,其中许多遭遇破产,AI在这一场景下系统性地逊于人类表现。"

这一结果或许能给那些担忧AI抢占饭碗的白领从业者和企业主带来些许宽慰——毕竟AI的崛起正在搅动从金融到营销各行各业的神经。

General Reasoning首席执行官、本次研究报告作者之一罗斯·泰勒(Ross Taylor)表示:"关于AI自动化的说法铺天盖地,但真正将AI置于长期动态场景中进行衡量的研究,其实少之又少。"

他还指出,目前通常用于测试AI的基准大多存在缺陷,因为这些测试所处的是"高度静态的环境",与现实世界中的混沌与复杂性相去甚远。

这份尚未经过同行评审的报告,为硅谷近期对AI能力大跃进的热情泼了一盆冷水——AI在几乎无需人工干预的情况下完成编程任务的能力确实突飞猛进,但这并不代表其已全面超越人类。

曾任Meta AI研究员的泰勒表示:"如果将AI用于某些真实世界的任务,它的表现会非常糟糕……没错,软件工程很重要,经济价值也很高,但现实中还有大量时间周期更长的任务同样值得我们关注。"

Q&A

Q1:KellyBench测试是怎么测AI的?

A:General Reasoning将八款AI系统放入2023至2024英超赛季的虚拟环境中,向它们提供球队历史数据和比赛统计,要求其构建投注策略模型,通过对比赛结果和进球数下注来测试盈利能力。每款模型初始资金10万英镑,有三次机会尝试盈利,且测试期间不得联网查询比赛结果。

Q2:哪款AI模型在足球投注测试中表现最好、最差?

A:表现最好的是Anthropic的Claude Opus 4.6,平均亏损率11%,在一次尝试中接近收支平衡。表现最差的是xAI的Grok 4.20和Acree Trinity,三次尝试均全部破产,最终资金归零。

Q3:AI在英超投注测试中为什么会全部亏损?

A:研究人员认为,AI目前擅长的多是静态、规则清晰的任务,而足球赛季是一个长周期、高度动态的场景,涉及持续变化的球员状态、赛事突发因素等复杂变量。现有AI基准测试大多处于静态环境,无法真实反映现实世界的混乱与复杂性,导致AI在此类任务中系统性地弱于人类。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2026

04/13

16:47

分享

点赞

邮件订阅