谷歌、OpenAI和Anthropic旗下的AI模型在一项最新研究中,被放入虚拟的英超联赛赛季进行投注测试,结果全部录得亏损。这一结果表明,即便是最先进的AI系统,在长周期的真实世界分析任务中依然力不从心。
本周,AI初创公司General Reasoning发布了一份名为"KellyBench"的研究报告,揭示了AI在特定任务(如代码编写)上能力飞速提升,与其在其他现实问题上表现欠佳之间的明显落差。
总部位于伦敦的General Reasoning对八款顶尖AI系统进行了测试,将其置于2023至2024赛季英超联赛的虚拟复现环境中,向它们提供各球队的详细历史数据与比赛统计信息,并要求这些系统构建能够最大化收益、有效控制风险的投注模型。
在测试过程中,各AI智能体通过对比赛结果及进球数下注,模拟在赛季推进过程中如何应对新赛事动态和球员数据更新。测试期间,AI无法联网查询比赛结果,每款模型有三次机会尝试实现盈利。
在所有参与测试的模型中,Anthropic的Claude Opus 4.6表现最佳,平均亏损率为11%,在一次尝试中几乎达到收支平衡。xAI的Grok 4.20则表现最差,一次测试中彻底破产,另外两次也未能完成。谷歌的Gemini 3.1 Pro在某次尝试中实现了34%的盈利,但在另一次中同样以破产收场。
以下为各模型的详细测试数据(每款模型初始资金均为10万英镑,投资回报率与最终资金为三次尝试的平均值;Grok和Trinity未完成全部尝试):
Claude Opus 4.6:平均投资回报率-11.0%,最佳单次-0.2%,最差单次-18.8%,平均最终资金89,035英镑
GPT-5.4:平均投资回报率-13.6%,最佳单次-4.1%,最差单次-31.6%,平均最终资金86,365英镑
Gemini 3.1 Pro:平均投资回报率-43.3%,最佳单次+33.7%,最差单次-100.0%,平均最终资金56,715英镑
Gemini Flash 3.1 LP:平均投资回报率-58.4%,最佳单次+24.7%,最差单次-100.0%,平均最终资金41,605英镑
Z.AI GLM-5:平均投资回报率-58.8%,最佳单次-14.3%,最差单次-100.0%,平均最终资金41,221英镑
Moonshot Kimi K2.5:平均投资回报率-68.3%,最佳单次-27.0%,最差单次-100.0%,平均最终资金7,420英镑
xAI Grok 4.20:平均投资回报率-100.0%,最佳单次-100.0%,最差单次-100.0%,平均最终资金0英镑
Acree Trinity:平均投资回报率-100.0%,最佳单次-100.0%,最差单次-100.0%,平均最终资金0英镑
报告作者总结道:"我们评估的所有前沿模型在整个赛季中均出现亏损,其中许多遭遇破产,AI在这一场景下系统性地逊于人类表现。"
这一结果或许能给那些担忧AI抢占饭碗的白领从业者和企业主带来些许宽慰——毕竟AI的崛起正在搅动从金融到营销各行各业的神经。
General Reasoning首席执行官、本次研究报告作者之一罗斯·泰勒(Ross Taylor)表示:"关于AI自动化的说法铺天盖地,但真正将AI置于长期动态场景中进行衡量的研究,其实少之又少。"
他还指出,目前通常用于测试AI的基准大多存在缺陷,因为这些测试所处的是"高度静态的环境",与现实世界中的混沌与复杂性相去甚远。
这份尚未经过同行评审的报告,为硅谷近期对AI能力大跃进的热情泼了一盆冷水——AI在几乎无需人工干预的情况下完成编程任务的能力确实突飞猛进,但这并不代表其已全面超越人类。
曾任Meta AI研究员的泰勒表示:"如果将AI用于某些真实世界的任务,它的表现会非常糟糕……没错,软件工程很重要,经济价值也很高,但现实中还有大量时间周期更长的任务同样值得我们关注。"
Q&A
Q1:KellyBench测试是怎么测AI的?
A:General Reasoning将八款AI系统放入2023至2024英超赛季的虚拟环境中,向它们提供球队历史数据和比赛统计,要求其构建投注策略模型,通过对比赛结果和进球数下注来测试盈利能力。每款模型初始资金10万英镑,有三次机会尝试盈利,且测试期间不得联网查询比赛结果。
Q2:哪款AI模型在足球投注测试中表现最好、最差?
A:表现最好的是Anthropic的Claude Opus 4.6,平均亏损率11%,在一次尝试中接近收支平衡。表现最差的是xAI的Grok 4.20和Acree Trinity,三次尝试均全部破产,最终资金归零。
Q3:AI在英超投注测试中为什么会全部亏损?
A:研究人员认为,AI目前擅长的多是静态、规则清晰的任务,而足球赛季是一个长周期、高度动态的场景,涉及持续变化的球员状态、赛事突发因素等复杂变量。现有AI基准测试大多处于静态环境,无法真实反映现实世界的混乱与复杂性,导致AI在此类任务中系统性地弱于人类。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。