Fable 5创下AI自由职业基准新纪录,但尚无法完全取代人类

AI安全中心(CAIS)通过远程劳动指数(RLI)测试发现,Anthropic的Fable 5模型以16.1%的自动化率创下新纪录,是Opus 4.8的两倍,也远超GPT-5.5的6.3%。测试内容涵盖3D设计、视频广告制作和平面图绘制等真实自由职业项目。尽管AI能力在不足8个月内提升了4倍以上,但16%的自动化率距离全面替代人类仍有很大差距,安全顾虑和技术局限也使AI工具的企业集成依然复杂。

短暂暂停之后,Anthropic旗下备受关注的Fable 5模型重新上线,并再度刷新了AI自动化工作的性能纪录。

美国政府于6月30日重新批准了该模型的使用。Anthropic表示,Fable 5在能力上与Mythos 5相近,而后者目前仍仅对特定机构开放。在此次重新上线之前,AI安全中心(CAIS)已于2025年10月发布的远程劳动指数(RLI)基准上对Fable 5进行了测试。测试结果显示,Fable 5的表现远超Anthropic的Opus 4.8与OpenAI的GPT-5.5——这两款模型均属新近发布且性能出色。

远程劳动指数(RLI)衡量的是"AI智能体完成真实、具有经济价值的自由职业项目的频率,且完成质量须达到付费客户的实际验收标准",CAIS在研究报告中如此解释。测试项目涵盖计算机辅助与平面设计、数据分析、视频制作等多个领域。与其他类似的人类能力测试一样,模型生成的每项交付物均由人工评估员对照专业标准进行评分,最终的自动化率反映的是AI输出被评估为达到或超过人类专业水准的项目占比。

CAIS要求Fable 5、GPT-5.5和Opus 4.8分别完成多项任务,包括设计订婚戒指的3D效果图、制作视频广告以及绘制平面图等。研究人员为每个模型提供了人工生成的输入文件作为起点,这一方式类似于向人类自由职业者提供相关文档和信息以启动工作。

最终,Fable 5取得了16.1%的自动化率,创下该基准的历史新高,是Opus 4.8(8.3%)的近两倍。GPT-5.5以6.3%排名第三,但CAIS指出,三款模型的得分均高于此前测试过的所有模型。

"作为参考,此前公开的最高纪录为4.17%(Opus 4.6配合Claude Cowork框架),而RLI发布时全行业最高也仅为2.5%。"CAIS表示,"在不到八个月的时间里,前沿水平已提升至原来的四倍有余,这是AI经济型智能体能力快速跃进的有力佐证。"

CAIS还指出,由于政府于6月中旬暂停了Fable 5的使用,测试被迫中断,但即便是这些不完整的结果,也足以令该模型脱颖而出。

"即使在最差的假设下——即Fable 5未完成的所有项目全部视为失败——其自动化率也将达到14.6%,依然高于任何其他模型。"研究人员表示。

尽管AI模型在短短数月内的进步速度令人瞩目,但这并不意味着自由职业岗位将全面被取代。16%离100%还相差甚远。此外,尽管AI展现出显著进步,但它并非对所有机构都具有无可争议的吸引力——安全顾虑及其他采用障碍,往往使大多数企业在整合AI工具时经历缓慢、多步骤的过程,至少在初期如此。若要完全取代人类自由职业者,机构可能需要构建一个由多个智能体组成的协作网络,用于检查工作质量、预算和进度等要素,其中的权衡并非简单的一对一替换。

CAIS曾尝试用"大语言模型裁判"替代人工评估员,以探究这一实验在多大程度上能够脱离人工环节,但结果以失败告终。

"评估一项RLI交付物本身就是一项复杂的智能体任务,"CAIS解释道,"要做到恰当评估,需要在正确的专业应用程序中打开项目文件,熟练操作这些应用程序,并以客户的视角做出判断——而这些计算机操作技能,恰恰是当前智能体最薄弱的地方。"

尽管如此,随着AI能力的持续提升,部分已成功整合AI的企业或将逐步压缩特定自由职业岗位的机会。此外,若计算机操作技能是当前的主要瓶颈,而行业又在持续加大对智能体模型的投入,那么这一障碍终将有望消除。从其他衡量智能体能力的基准上模型的进步速度来看,这一天或许会比我们预想的更早到来。

在时间维度上,CAIS还发现:一项任务对人类耗时越长,并不意味着AI完成起来就越困难。这一时间维度分析在编程领域成立,但在RLI所涵盖的更广泛远程任务类型中并不适用。目前,从中得出未来的明确结论仍十分困难。

"某些对熟练专业人员而言只需片刻的工作,AI仍难以胜任,例如乐谱转录或实时游戏的可玩性测试;而另一些需要人类耗费数小时的工作,如数字艺术创作或编程,当前模型却能在数分钟内完成。"CAIS写道。

Q&A

Q1:远程劳动指数(RLI)是什么?它如何衡量AI的工作能力?

A:远程劳动指数(RLI)由AI安全中心(CAIS)于2025年10月发布,用于衡量AI智能体完成真实自由职业项目的频率,且要求完成质量达到付费客户的验收标准。测试项目涵盖平面设计、数据分析、视频制作等多类任务,每项交付物均由人工评估员对照专业标准打分,最终的自动化率反映AI输出达到或超过人类专业水准的项目占比。

Q2:Fable 5在RLI基准测试中取得了怎样的成绩?

A:Fable 5在RLI基准测试中取得了16.1%的自动化率,创下该基准的历史新高,是Anthropic Opus 4.8(8.3%)的近两倍,也远高于OpenAI GPT-5.5的6.3%。CAIS指出,此前公开的最高纪录仅为4.17%,而RLI发布时全行业最高也只有2.5%,这意味着在不到八个月的时间里,前沿水平已提升至原来的四倍以上。

Q3:AI目前为什么还无法完全取代人类自由职业者?

A:目前AI的自动化率仍仅为16.1%,距离全面替代还有很大差距。此外,安全顾虑和整合难度使企业采用AI的过程较为缓慢。要完全替代人类自由职业者,还需要构建由多个智能体协同工作的网络来处理质量、预算和进度等问题。同时,AI在计算机操作技能方面仍较薄弱,某些对人类来说轻而易举的任务,AI目前依然难以完成。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

07/03

15:59

分享

点赞

邮件订阅