AI智能体是否已准备好进入职场？新基准测试引发质疑

最新研究显示，尽管AI模型在深度研究和智能规划方面取得巨大进步，但在实际白领工作任务中表现不佳。新的Apex-Agents基准测试涵盖咨询、投资银行和法律等领域的真实工作场景，结果显示即使是最先进的AI模型也只能正确回答四分之一的问题。研究发现，AI模型最大的障碍是跨多个领域追踪信息的能力不足，这正是人类知识工作的核心技能。

距离微软CEO萨蒂亚·纳德拉预测AI将取代知识工作已经近两年了——这些白领工作包括律师、投资银行家、图书馆员、会计师、IT人员等职业。

尽管基础模型取得了巨大进展，但知识工作的变革却姗姗来迟。模型已经掌握了深度研究和智能体规划能力，但不知何故，大多数白领工作相对未受影响。

这是AI领域最大的谜团之一——而训练数据巨头Mercor的新研究终于为我们提供了一些答案。

新研究考察了领先的AI模型在执行真实白领工作任务时的表现，这些任务来自咨询、投资银行和法律领域。研究产生了一个名为Apex-Agents的新基准测试——到目前为止，每个AI实验室的成绩都不及格。面对真实专业人士的问题，即使是最优秀的模型也难以答对超过四分之一的问题。绝大多数情况下，模型都给出了错误答案或根本无法回答。

参与研究的研究员布伦丹·富迪表示，模型最大的障碍是跨多个领域追踪信息——这是人类执行大部分知识工作不可或缺的部分。

"这个基准测试的一大变化是我们构建了完整的环境，模拟真实的专业服务环境，"富迪告诉TechCrunch。"我们工作的方式并不是由某个人在一个地方为我们提供所有背景信息。在现实生活中，你需要在Slack、Google Drive和其他各种工具间操作。"对于许多智能体AI模型来说，这种跨领域推理仍然不稳定。

这些场景都来自Mercor专家市场的真实专业人士，他们既提出了问题，也设定了成功回答的标准。浏览这些在Hugging Face公开发布的问题，可以感受到任务的复杂程度。

法律部分的一个问题如下：

在欧盟生产中断的前48分钟内，Northstar的工程团队将一到两个包含个人数据的欧盟生产事件日志捆绑集导出到美国分析供应商……根据Northstar自身的政策，它能否合理地将这一到两次日志导出视为符合第49条？

正确答案是肯定的，但要得出这个结论需要深入评估公司自身的政策以及相关的欧盟隐私法。

这可能连见多识广的人类都会感到困惑，但研究人员试图模拟该领域专业人士的工作。如果大语言模型能够可靠地回答这些问题，它就能有效地取代今天许多律师的工作。"我认为这可能是经济中最重要的话题，"富迪告诉TechCrunch。"这个基准测试非常真实地反映了这些人所做的实际工作。"

OpenAI也尝试通过其GDPVal基准测试来衡量专业技能——但Apex Agents测试在重要方面有所不同。GDPVal测试跨广泛职业的一般知识，而Apex Agents基准测试衡量系统在少数高价值职业中执行持续任务的能力。结果对模型来说更困难，但也更贴近这些工作是否能被自动化。

虽然没有模型证明已经准备好接管投资银行家的工作，但有些明显更接近目标。Gemini 3 Flash在小组中表现最佳，一次性准确率为24%，GPT-5.2紧随其后，准确率为23%。其次，Opus 4.5、Gemini 3 Pro和GPT-5的得分都约为18%。

虽然初始结果不尽如人意，但AI领域有突破挑战性基准测试的历史。现在Apex测试已经公开，对于相信自己能做得更好的AI实验室来说，这是一个公开的挑战——富迪完全期待在未来几个月内看到改进。

"它正在快速改善，"他告诉TechCrunch。"现在可以说它像一个四分之一时间答对的实习生，但去年它是一个只有5%到10%时间答对的实习生。这种年复一年的改善能够如此迅速地产生影响。"

Q&A

Q1：什么是Apex-Agents基准测试？

A：Apex-Agents是由训练数据公司Mercor开发的新基准测试，用于评估AI模型在执行真实白领工作任务时的表现。测试场景来自咨询、投资银行和法律等领域的实际专业人士，重点考察AI在跨多个工具和领域处理复杂任务的能力。

Q2：目前AI模型在职场任务上的表现如何？

A：表现并不理想，即使是最优秀的AI模型也难以答对超过四分之一的专业问题。Gemini 3 Flash表现最佳，一次性准确率为24%，GPT-5.2为23%。大多数情况下，模型都给出错误答案或无法回答，距离取代专业人士还有很大差距。

Q3：AI模型在处理职场任务时的主要困难是什么？

A：最大的困难是跨多个领域追踪信息。在现实工作中，专业人士需要在Slack、Google Drive等多种工具间操作，整合不同来源的信息。而对于智能体AI模型来说，这种多领域推理和信息整合能力仍然不稳定，无法有效模拟真实的工作环境。

来源：Techcrunch

0赞

好文章，需要你的鼓励

AI智能体是否已准备好进入职场？新基准测试引发质疑

来源：Techcrunch

2026

01/23

10:03

分享

点赞

Waymo因洪水问题发布召回，近4000辆自动驾驶车辆受影响

AI驱动的"地面情报"系统：Samsara如何帮助城市主动修复坑洼路面

特斯拉Robotaxi披露两起远程操控事故

特斯拉FSD自动驾驶软件加速进军欧洲市场

Waymo暂停高速公路服务，因自动驾驶出租车难以应对施工区

Waymo自动驾驶车辆注册数量领跑德克萨斯，特斯拉远落后

Siri AI、ChatGPT、Claude真实横评，谁才是最强AI助手？

Uber年度遗失物报告揭示：数千件物品遗留在无人驾驶出租车中

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

F5推出AI安全防护平台扩展新产品

思科发布2026年1月最新动态与AI基础设施布局进展

NVIDIA RTX PC上视觉生成式AI入门指南

科技行业裁员潮：2026年时间线

ServiceNow将OpenAI模型集成至其AI平台

企业AI投资持续推进但投资回报率仍难捉摸

Anthropic为Claude制定AI智能体行为准则宪法

谷歌推出基于Gemini的免费SAT备考服务

Apple Watch检测房颤准确性研究取得重要进展

Humans&打造协作型AI模型重新定义人机合作

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: