对19个大语言模型在完成复杂多步骤任务方面的测试结果表明,这些模型不仅容易出错,在许多情况下还存在可靠性不足的问题。
上述结论来自一篇名为《委托大语言模型时会损坏你的文档》的预印本论文。该论文由微软研究人员Philippe Laban、Tobias Schnabel和Jennifer Neville联合撰写,基于他们自主构建的名为DELEGATE-52的基准测试框架,模拟了知识工作者日常工作流程中可能涉及的各类任务。该论文目前仍在同行评审阶段。
研究人员介绍,该基准测试涵盖了编程、晶体学、家谱学和乐谱标注等52个专业领域,共构建了310个工作环境。每个工作环境由总长约15,000个Token的真实文档组成,并包含5至10项用户可能委托大语言模型执行的复杂编辑任务。
论文摘要中指出:"我们的分析表明,当前大语言模型是不可靠的委托执行者:它们会引入零散但严重的错误,在用户不知情的情况下悄然损坏文档,且错误会在长期交互中不断累积。"
这些错误的危害不容小觑。研究人员表示:"研究结果显示,当前大语言模型在编辑工作文档时会引入大量错误。前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus和GPT 5.4)在经历20次委托交互后,平均会导致文档内容损失25%;而所有测试模型的平均内容退化率更高达50%。"
Info-Tech研究集团首席研究总监Brian Jackson对此研究结果颇感兴趣。他表示:"对一系列大语言模型在不同工作领域进行系统性测试,能够产生大量有价值的洞察。这类基准测试对于希望利用智能体AI自动化特定工作流程、并了解其能力边界的企业开发人员来说,具有重要参考意义。"
不过他也指出:"我们不应从中得出这样的结论:仅因为这些基础模型在经历20次编辑后导致文档退化,就认定它们无法在某一领域实现工作自动化。这只是说明,以目前的构建方式,它们还无法独立完成全部工作。"
Jackson进一步解释:"在企业环境中,精准输出至关重要,因此不会采用这种方式。企业会在自动化流程设计中建立更强的防护机制,以有效规避错误。例如,可以采用多智能体协作架构,分别承担不同职责——一个负责执行编辑,另一个负责检查错误并进行纠正。"
Greyhound Research首席分析师Sanchit Vir Gogia表示:"这篇微软的论文应当被视为对委托式AI的严肃警示,而非对企业AI整体失败的宣判,这一区别至关重要。尽管该论文仍处于预印阶段,需要审慎对待,但其核心问题正是CIO们应当追问的:AI能否在经历反复委托操作后,仍然保持复杂工作成果的完整性?"
他认为,这项研究比通常所见的"AI基准测试秀"更具深度,因为它测试的是实际工作产出,而非仅仅展示某些巧妙的一次性回答。"研究采用了可逆编辑任务、特定领域评估器以及往返验证方法,检验文档在经历反复编辑后能否保持原样。结果表明,在太多情况下,文档无法保持完整。"
Gogia指出,这正是问题的关键所在:"这已经不仅仅是幻觉问题,而是关于文档工件完整性的问题。"
他还补充道,研究的核心发现令人警醒:"即便是性能最强的模型,在完成长流程工作后,也会损坏约四分之一的文档内容;而所有测试模型的平均退化率则接近50%。研究同时发现,模型表现因领域不同存在显著差异。Python是唯一一个大多数模型'表现达标'的领域,而最优秀的模型也仅在52个领域中的11个达到了可用标准。"
Gogia表示,AI并非因为不会写作而面临挑战,而是因为它尚不能保持文档的完整性。
他特别指出,这项研究的独特价值在于揭示了错误的累积规律:"文档越长,结果越差;交互轮次越多,结果越差;干扰文件越多,结果越差。短期测试往往会高估系统能力,而长流程任务则会充分暴露其缺陷。这与企业现实环境高度吻合——工作内容错综复杂,文件版本陈旧,上下文噪声干扰多,而最重要的文档往往也是最复杂的。"
他得出的客观结论是:"不是说AI不该进入企业工作流程,而是委托式AI目前尚不具备独立处理关键文档工件的可信度。"
Gogia警告,当AI编辑合同、账本、政策文件、代码库、董事会文件或合规记录等重要文档时,企业仍将为由此造成的损失承担全部责任。
为防范此类风险,Jackson建议企业可以对模型进行针对性的额外训练和微调,使其更好地适配特定业务流程:"这些基础模型擅长处理各种通用任务,但在某一特定任务上的专精能力相对有限。因此,希望在特定领域实现高精度输出的企业,可能需要用自有数据对模型进行专项训练来提升其能力。"
他举例说明:"该论文提到,某种多智能体配置方案不仅没有减少文档退化,反而加剧了问题,这说明退化检测机制的设计必须经过精心设计才能奏效。部分企业平台已引入另一种方法,即通过数学验证对输出结果进行确定性准确性校验。因此,了解哪些领域对于单一大语言模型的自动化处理更具挑战性是有价值的,开发人员可据此有针对性地在相应环节增加验证步骤。"
Jackson还表示:"根据模型类型的不同,例如完全开源或专有模型,企业在定制化方面的灵活度也有所不同。因此,企业开发人员可以参考这些测试结果,选择在目标领域自动化能力最强的大语言模型,再通过额外训练使其进一步掌握相应的工作流程。"
Gogia认为,这篇论文还传递了一个比"AI仍然需要人类参与"更为精准的信号:"它表明,AI正在将人类角色从内容生产转变为监督、验证与问责。这与当前许多高层会议上所描绘的运营模式存在本质差异。"
他强调:"人不会消失,只是工作内容会发生转移。对于那些将削减人员编制作为目标的企业来说,这是一个令人不安的现实。最有能力发现AI错误的人,往往正是企业希望替换、缩减或重新部署的那批人。一旦从工作流程中过度抽离领域专家,企业也就同时失去了那些能够察觉AI悄然损坏工作成果的人。"
Gogia最后指出,专业知识的价值不是在降低,而是在提升:"这篇论文进一步印证了这一点,因为性能更强的模型不仅仅是删除内容,它们往往会以更隐蔽的方式损坏内容。性能较弱的模型在明显遗漏内容时反而更容易被察觉。而前沿模型的问题则更为棘手——内容依然存在,但却变得错误、失真或被微妙地篡改。这需要具备专业知识的深度审查,而非随意的粗略检视。"
Q&A
Q1:DELEGATE-52基准测试是什么?它测试的内容是什么?
A:DELEGATE-52是由微软研究人员构建的基准测试框架,用于评估大语言模型完成复杂多步骤工作任务的能力。它涵盖编程、晶体学、家谱学等52个专业领域,共310个工作环境,每个环境包含总长约15,000个Token的真实文档,以及5至10项复杂编辑任务,用于模拟知识工作者的实际工作场景。
Q2:大语言模型在文档编辑中的表现究竟差在哪里?
A:研究发现,大语言模型在执行长流程文档编辑任务时会引入严重错误。前沿模型(如Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在经历20次委托交互后,平均损失约25%的文档内容;所有测试模型的平均退化率更高达50%。更关键的是,强模型往往不是简单删除内容,而是将其悄然篡改,这类错误更难被察觉,危害更大。
Q3:企业如何防止大语言模型在工作流程中损坏文档?
A:企业可以从多个维度加以防范:一是采用多智能体协作架构,由不同智能体分别负责编辑和错误校验;二是引入数学验证等确定性方法对输出结果进行准确性核查;三是利用企业自有数据对模型进行针对性微调,使其更适配特定业务场景。同时,保留具备领域专业知识的人员参与监督,也是识别AI潜在错误的重要保障。
好文章,需要你的鼓励
今天讲的出海案例是利亚德,这家 1995 年成立、从 LED 显示产品研发生产销售起步,并做到小间距和 Micro LED 的视效科技公司,沙特工厂预计 2026 年 7 月投产。
本文综述了基于大型语言模型的多智能体系统,提出LIFE框架,系统串联个体能力、多智能体协作、故障归因与自我进化四个相互依存的阶段,填补了该领域的理论空白。
黑石集团与谷歌宣布成立合资公司,整合数据中心容量与谷歌云张量处理器(TPU),以"算力即服务"模式面向企业市场。黑石初期承诺投入50亿美元股权资本,首批500兆瓦算力预计于2027年上线。谷歌负责提供TPU硬件、软件及技术支持。此举旨在满足AI工作负载需求,同时与CoreWeave等新兴云服务商展开竞争。据Synergy Research Group数据,2026年一季度企业云基础设施支出已达1290亿美元。
韩国VIDRAFT公司提出达尔文框架,通过进化算法和诊断引导的参数重组,让AI模型无需训练即可提升推理能力,旗舰模型GPQA得分86.9%全球排名第六。