Fable 5创下AI自由职业基准新纪录，但尚无法完全取代人类

AI安全中心（CAIS）通过远程劳动指数（RLI）测试发现，Anthropic的Fable 5模型以16.1%的自动化率创下新纪录，是Opus 4.8的两倍，也远超GPT-5.5的6.3%。测试内容涵盖3D设计、视频广告制作和平面图绘制等真实自由职业项目。尽管AI能力在不足8个月内提升了4倍以上，但16%的自动化率距离全面替代人类仍有很大差距，安全顾虑和技术局限也使AI工具的企业集成依然复杂。

短暂暂停之后，Anthropic旗下备受关注的Fable 5模型重新上线，并再度刷新了AI自动化工作的性能纪录。

美国政府于6月30日重新批准了该模型的使用。Anthropic表示，Fable 5在能力上与Mythos 5相近，而后者目前仍仅对特定机构开放。在此次重新上线之前，AI安全中心（CAIS）已于2025年10月发布的远程劳动指数（RLI）基准上对Fable 5进行了测试。测试结果显示，Fable 5的表现远超Anthropic的Opus 4.8与OpenAI的GPT-5.5——这两款模型均属新近发布且性能出色。

远程劳动指数（RLI）衡量的是"AI智能体完成真实、具有经济价值的自由职业项目的频率，且完成质量须达到付费客户的实际验收标准"，CAIS在研究报告中如此解释。测试项目涵盖计算机辅助与平面设计、数据分析、视频制作等多个领域。与其他类似的人类能力测试一样，模型生成的每项交付物均由人工评估员对照专业标准进行评分，最终的自动化率反映的是AI输出被评估为达到或超过人类专业水准的项目占比。

CAIS要求Fable 5、GPT-5.5和Opus 4.8分别完成多项任务，包括设计订婚戒指的3D效果图、制作视频广告以及绘制平面图等。研究人员为每个模型提供了人工生成的输入文件作为起点，这一方式类似于向人类自由职业者提供相关文档和信息以启动工作。

最终，Fable 5取得了16.1%的自动化率，创下该基准的历史新高，是Opus 4.8（8.3%）的近两倍。GPT-5.5以6.3%排名第三，但CAIS指出，三款模型的得分均高于此前测试过的所有模型。

"作为参考，此前公开的最高纪录为4.17%（Opus 4.6配合Claude Cowork框架），而RLI发布时全行业最高也仅为2.5%。"CAIS表示，"在不到八个月的时间里，前沿水平已提升至原来的四倍有余，这是AI经济型智能体能力快速跃进的有力佐证。"

CAIS还指出，由于政府于6月中旬暂停了Fable 5的使用，测试被迫中断，但即便是这些不完整的结果，也足以令该模型脱颖而出。

"即使在最差的假设下——即Fable 5未完成的所有项目全部视为失败——其自动化率也将达到14.6%，依然高于任何其他模型。"研究人员表示。

尽管AI模型在短短数月内的进步速度令人瞩目，但这并不意味着自由职业岗位将全面被取代。16%离100%还相差甚远。此外，尽管AI展现出显著进步，但它并非对所有机构都具有无可争议的吸引力——安全顾虑及其他采用障碍，往往使大多数企业在整合AI工具时经历缓慢、多步骤的过程，至少在初期如此。若要完全取代人类自由职业者，机构可能需要构建一个由多个智能体组成的协作网络，用于检查工作质量、预算和进度等要素，其中的权衡并非简单的一对一替换。

CAIS曾尝试用"大语言模型裁判"替代人工评估员，以探究这一实验在多大程度上能够脱离人工环节，但结果以失败告终。

"评估一项RLI交付物本身就是一项复杂的智能体任务，"CAIS解释道，"要做到恰当评估，需要在正确的专业应用程序中打开项目文件，熟练操作这些应用程序，并以客户的视角做出判断——而这些计算机操作技能，恰恰是当前智能体最薄弱的地方。"

尽管如此，随着AI能力的持续提升，部分已成功整合AI的企业或将逐步压缩特定自由职业岗位的机会。此外，若计算机操作技能是当前的主要瓶颈，而行业又在持续加大对智能体模型的投入，那么这一障碍终将有望消除。从其他衡量智能体能力的基准上模型的进步速度来看，这一天或许会比我们预想的更早到来。

在时间维度上，CAIS还发现：一项任务对人类耗时越长，并不意味着AI完成起来就越困难。这一时间维度分析在编程领域成立，但在RLI所涵盖的更广泛远程任务类型中并不适用。目前，从中得出未来的明确结论仍十分困难。

"某些对熟练专业人员而言只需片刻的工作，AI仍难以胜任，例如乐谱转录或实时游戏的可玩性测试；而另一些需要人类耗费数小时的工作，如数字艺术创作或编程，当前模型却能在数分钟内完成。"CAIS写道。

Q&A

Q1：远程劳动指数（RLI）是什么？它如何衡量AI的工作能力？

A：远程劳动指数（RLI）由AI安全中心（CAIS）于2025年10月发布，用于衡量AI智能体完成真实自由职业项目的频率，且要求完成质量达到付费客户的验收标准。测试项目涵盖平面设计、数据分析、视频制作等多类任务，每项交付物均由人工评估员对照专业标准打分，最终的自动化率反映AI输出达到或超过人类专业水准的项目占比。

Q2：Fable 5在RLI基准测试中取得了怎样的成绩？

A：Fable 5在RLI基准测试中取得了16.1%的自动化率，创下该基准的历史新高，是Anthropic Opus 4.8（8.3%）的近两倍，也远高于OpenAI GPT-5.5的6.3%。CAIS指出，此前公开的最高纪录仅为4.17%，而RLI发布时全行业最高也只有2.5%，这意味着在不到八个月的时间里，前沿水平已提升至原来的四倍以上。

Q3：AI目前为什么还无法完全取代人类自由职业者？

A：目前AI的自动化率仍仅为16.1%，距离全面替代还有很大差距。此外，安全顾虑和整合难度使企业采用AI的过程较为缓慢。要完全替代人类自由职业者，还需要构建由多个智能体协同工作的网络来处理质量、预算和进度等问题。同时，AI在计算机操作技能方面仍较薄弱，某些对人类来说轻而易举的任务，AI目前依然难以完成。

来源：ZDNET

0赞

好文章，需要你的鼓励

Fable 5创下AI自由职业基准新纪录，但尚无法完全取代人类

来源：ZDNET

2026

07/03

15:59

分享

点赞

AI高速扩张正悄然考验电网承载极限

福特对AI失望，重新雇用350名经验丰富的工程师

首批四家云服务商加入CISPE欧盟云主权认证计划

2026 Eurobike 展会：最值得关注的电动自行车与新奇产品盘点

联想Legion 7i Gen 10游戏本评测：颜值在线，性价比存疑

杀毒软件已不够用？全面了解现代网络安全防护

大语言模型助力机器人理解模糊指令并聚焦关键细节

MIT AI与社会论坛：探讨AI对就业、民主等领域的深远影响

麻省理工学院新芯片助力微型机器人穿越复杂环境

扎克伯格承认Meta智能体AI进展未达预期

Rust 1.96 正式发布：引入全新 Range 类型体系

AI驱动的内存危机：苹果的困境也是所有人的困境

SoftBank宣布在美推出新云计算业务SB Neo

OpenAI拟向美国政府出让5%股权

扎克伯格坦言：Meta智能体进展未达预期

意大利监管机构调查微软M365 AI定价透明度问题

Jersey Mike's IPO文件中AI被提及22次，AI炒作已走向荒诞

微软斥资25亿美元成立AI专业服务新业务部门

SpaceX秘密向投资者展示新AI设备原型，究竟是不是手机？

微软推出 Binlog MCP 服务器，让 AI 助手直接分析 MSBuild 日志

企业如何在边缘端与云端之间合理分配AI算力

如何设置OpenAI API使用限额，防止智能体超额消费等账单噩梦

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: