谷歌、OpenAI和Anthropic旗下的AI模型在一项最新研究中,被放入虚拟的英超联赛赛季进行投注测试,结果全部录得亏损。这一结果表明,即便是最先进的AI系统,在长周期的真实世界分析任务中依然力不从心。
本周,AI初创公司General Reasoning发布了一份名为"KellyBench"的研究报告,揭示了AI在特定任务(如代码编写)上能力飞速提升,与其在其他现实问题上表现欠佳之间的明显落差。
总部位于伦敦的General Reasoning对八款顶尖AI系统进行了测试,将其置于2023至2024赛季英超联赛的虚拟复现环境中,向它们提供各球队的详细历史数据与比赛统计信息,并要求这些系统构建能够最大化收益、有效控制风险的投注模型。
在测试过程中,各AI智能体通过对比赛结果及进球数下注,模拟在赛季推进过程中如何应对新赛事动态和球员数据更新。测试期间,AI无法联网查询比赛结果,每款模型有三次机会尝试实现盈利。
在所有参与测试的模型中,Anthropic的Claude Opus 4.6表现最佳,平均亏损率为11%,在一次尝试中几乎达到收支平衡。xAI的Grok 4.20则表现最差,一次测试中彻底破产,另外两次也未能完成。谷歌的Gemini 3.1 Pro在某次尝试中实现了34%的盈利,但在另一次中同样以破产收场。
以下为各模型的详细测试数据(每款模型初始资金均为10万英镑,投资回报率与最终资金为三次尝试的平均值;Grok和Trinity未完成全部尝试):
Claude Opus 4.6:平均投资回报率-11.0%,最佳单次-0.2%,最差单次-18.8%,平均最终资金89,035英镑
GPT-5.4:平均投资回报率-13.6%,最佳单次-4.1%,最差单次-31.6%,平均最终资金86,365英镑
Gemini 3.1 Pro:平均投资回报率-43.3%,最佳单次+33.7%,最差单次-100.0%,平均最终资金56,715英镑
Gemini Flash 3.1 LP:平均投资回报率-58.4%,最佳单次+24.7%,最差单次-100.0%,平均最终资金41,605英镑
Z.AI GLM-5:平均投资回报率-58.8%,最佳单次-14.3%,最差单次-100.0%,平均最终资金41,221英镑
Moonshot Kimi K2.5:平均投资回报率-68.3%,最佳单次-27.0%,最差单次-100.0%,平均最终资金7,420英镑
xAI Grok 4.20:平均投资回报率-100.0%,最佳单次-100.0%,最差单次-100.0%,平均最终资金0英镑
Acree Trinity:平均投资回报率-100.0%,最佳单次-100.0%,最差单次-100.0%,平均最终资金0英镑
报告作者总结道:"我们评估的所有前沿模型在整个赛季中均出现亏损,其中许多遭遇破产,AI在这一场景下系统性地逊于人类表现。"
这一结果或许能给那些担忧AI抢占饭碗的白领从业者和企业主带来些许宽慰——毕竟AI的崛起正在搅动从金融到营销各行各业的神经。
General Reasoning首席执行官、本次研究报告作者之一罗斯·泰勒(Ross Taylor)表示:"关于AI自动化的说法铺天盖地,但真正将AI置于长期动态场景中进行衡量的研究,其实少之又少。"
他还指出,目前通常用于测试AI的基准大多存在缺陷,因为这些测试所处的是"高度静态的环境",与现实世界中的混沌与复杂性相去甚远。
这份尚未经过同行评审的报告,为硅谷近期对AI能力大跃进的热情泼了一盆冷水——AI在几乎无需人工干预的情况下完成编程任务的能力确实突飞猛进,但这并不代表其已全面超越人类。
曾任Meta AI研究员的泰勒表示:"如果将AI用于某些真实世界的任务,它的表现会非常糟糕……没错,软件工程很重要,经济价值也很高,但现实中还有大量时间周期更长的任务同样值得我们关注。"
Q&A
Q1:KellyBench测试是怎么测AI的?
A:General Reasoning将八款AI系统放入2023至2024英超赛季的虚拟环境中,向它们提供球队历史数据和比赛统计,要求其构建投注策略模型,通过对比赛结果和进球数下注来测试盈利能力。每款模型初始资金10万英镑,有三次机会尝试盈利,且测试期间不得联网查询比赛结果。
Q2:哪款AI模型在足球投注测试中表现最好、最差?
A:表现最好的是Anthropic的Claude Opus 4.6,平均亏损率11%,在一次尝试中接近收支平衡。表现最差的是xAI的Grok 4.20和Acree Trinity,三次尝试均全部破产,最终资金归零。
Q3:AI在英超投注测试中为什么会全部亏损?
A:研究人员认为,AI目前擅长的多是静态、规则清晰的任务,而足球赛季是一个长周期、高度动态的场景,涉及持续变化的球员状态、赛事突发因素等复杂变量。现有AI基准测试大多处于静态环境,无法真实反映现实世界的混乱与复杂性,导致AI在此类任务中系统性地弱于人类。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。