大语言模型编辑文档易出错，仅Python领域表现可靠

微软研究人员通过DELEGATE-52基准测试，对19款大型语言模型在52个专业领域的复杂多步骤任务处理能力进行评估，发现当前LLM在文档编辑中存在严重可靠性问题。顶级模型（包括Gemini、Claude和GPT）在经过20次委托交互后，平均丢失约25%的文档内容，所有模型平均退化率高达50%。研究指出，Python是唯一大多数模型表现"就绪"的领域，企业在使用AI自动化工作流时需保留足够的人工监督机制。

对19个大语言模型在完成复杂多步骤任务方面的测试结果表明，这些模型不仅容易出错，在许多情况下还存在可靠性不足的问题。

上述结论来自一篇名为《委托大语言模型时会损坏你的文档》的预印本论文。该论文由微软研究人员Philippe Laban、Tobias Schnabel和Jennifer Neville联合撰写，基于他们自主构建的名为DELEGATE-52的基准测试框架，模拟了知识工作者日常工作流程中可能涉及的各类任务。该论文目前仍在同行评审阶段。

研究人员介绍，该基准测试涵盖了编程、晶体学、家谱学和乐谱标注等52个专业领域，共构建了310个工作环境。每个工作环境由总长约15,000个Token的真实文档组成，并包含5至10项用户可能委托大语言模型执行的复杂编辑任务。

论文摘要中指出："我们的分析表明，当前大语言模型是不可靠的委托执行者：它们会引入零散但严重的错误，在用户不知情的情况下悄然损坏文档，且错误会在长期交互中不断累积。"

这些错误的危害不容小觑。研究人员表示："研究结果显示，当前大语言模型在编辑工作文档时会引入大量错误。前沿模型（Gemini 3.1 Pro、Claude 4.6 Opus和GPT 5.4）在经历20次委托交互后，平均会导致文档内容损失25%；而所有测试模型的平均内容退化率更高达50%。"

Info-Tech研究集团首席研究总监Brian Jackson对此研究结果颇感兴趣。他表示："对一系列大语言模型在不同工作领域进行系统性测试，能够产生大量有价值的洞察。这类基准测试对于希望利用智能体AI自动化特定工作流程、并了解其能力边界的企业开发人员来说，具有重要参考意义。"

不过他也指出："我们不应从中得出这样的结论：仅因为这些基础模型在经历20次编辑后导致文档退化，就认定它们无法在某一领域实现工作自动化。这只是说明，以目前的构建方式，它们还无法独立完成全部工作。"

Jackson进一步解释："在企业环境中，精准输出至关重要，因此不会采用这种方式。企业会在自动化流程设计中建立更强的防护机制，以有效规避错误。例如，可以采用多智能体协作架构，分别承担不同职责——一个负责执行编辑，另一个负责检查错误并进行纠正。"

Greyhound Research首席分析师Sanchit Vir Gogia表示："这篇微软的论文应当被视为对委托式AI的严肃警示，而非对企业AI整体失败的宣判，这一区别至关重要。尽管该论文仍处于预印阶段，需要审慎对待，但其核心问题正是CIO们应当追问的：AI能否在经历反复委托操作后，仍然保持复杂工作成果的完整性？"

他认为，这项研究比通常所见的"AI基准测试秀"更具深度，因为它测试的是实际工作产出，而非仅仅展示某些巧妙的一次性回答。"研究采用了可逆编辑任务、特定领域评估器以及往返验证方法，检验文档在经历反复编辑后能否保持原样。结果表明，在太多情况下，文档无法保持完整。"

Gogia指出，这正是问题的关键所在："这已经不仅仅是幻觉问题，而是关于文档工件完整性的问题。"

他还补充道，研究的核心发现令人警醒："即便是性能最强的模型，在完成长流程工作后，也会损坏约四分之一的文档内容；而所有测试模型的平均退化率则接近50%。研究同时发现，模型表现因领域不同存在显著差异。Python是唯一一个大多数模型'表现达标'的领域，而最优秀的模型也仅在52个领域中的11个达到了可用标准。"

Gogia表示，AI并非因为不会写作而面临挑战，而是因为它尚不能保持文档的完整性。

他特别指出，这项研究的独特价值在于揭示了错误的累积规律："文档越长，结果越差；交互轮次越多，结果越差；干扰文件越多，结果越差。短期测试往往会高估系统能力，而长流程任务则会充分暴露其缺陷。这与企业现实环境高度吻合——工作内容错综复杂，文件版本陈旧，上下文噪声干扰多，而最重要的文档往往也是最复杂的。"

他得出的客观结论是："不是说AI不该进入企业工作流程，而是委托式AI目前尚不具备独立处理关键文档工件的可信度。"

Gogia警告，当AI编辑合同、账本、政策文件、代码库、董事会文件或合规记录等重要文档时，企业仍将为由此造成的损失承担全部责任。

为防范此类风险，Jackson建议企业可以对模型进行针对性的额外训练和微调，使其更好地适配特定业务流程："这些基础模型擅长处理各种通用任务，但在某一特定任务上的专精能力相对有限。因此，希望在特定领域实现高精度输出的企业，可能需要用自有数据对模型进行专项训练来提升其能力。"

他举例说明："该论文提到，某种多智能体配置方案不仅没有减少文档退化，反而加剧了问题，这说明退化检测机制的设计必须经过精心设计才能奏效。部分企业平台已引入另一种方法，即通过数学验证对输出结果进行确定性准确性校验。因此，了解哪些领域对于单一大语言模型的自动化处理更具挑战性是有价值的，开发人员可据此有针对性地在相应环节增加验证步骤。"

Jackson还表示："根据模型类型的不同，例如完全开源或专有模型，企业在定制化方面的灵活度也有所不同。因此，企业开发人员可以参考这些测试结果，选择在目标领域自动化能力最强的大语言模型，再通过额外训练使其进一步掌握相应的工作流程。"

Gogia认为，这篇论文还传递了一个比"AI仍然需要人类参与"更为精准的信号："它表明，AI正在将人类角色从内容生产转变为监督、验证与问责。这与当前许多高层会议上所描绘的运营模式存在本质差异。"

他强调："人不会消失，只是工作内容会发生转移。对于那些将削减人员编制作为目标的企业来说，这是一个令人不安的现实。最有能力发现AI错误的人，往往正是企业希望替换、缩减或重新部署的那批人。一旦从工作流程中过度抽离领域专家，企业也就同时失去了那些能够察觉AI悄然损坏工作成果的人。"

Gogia最后指出，专业知识的价值不是在降低，而是在提升："这篇论文进一步印证了这一点，因为性能更强的模型不仅仅是删除内容，它们往往会以更隐蔽的方式损坏内容。性能较弱的模型在明显遗漏内容时反而更容易被察觉。而前沿模型的问题则更为棘手——内容依然存在，但却变得错误、失真或被微妙地篡改。这需要具备专业知识的深度审查，而非随意的粗略检视。"

Q&A

Q1：DELEGATE-52基准测试是什么？它测试的内容是什么？

A：DELEGATE-52是由微软研究人员构建的基准测试框架，用于评估大语言模型完成复杂多步骤工作任务的能力。它涵盖编程、晶体学、家谱学等52个专业领域，共310个工作环境，每个环境包含总长约15,000个Token的真实文档，以及5至10项复杂编辑任务，用于模拟知识工作者的实际工作场景。

Q2：大语言模型在文档编辑中的表现究竟差在哪里？

A：研究发现，大语言模型在执行长流程文档编辑任务时会引入严重错误。前沿模型（如Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在经历20次委托交互后，平均损失约25%的文档内容；所有测试模型的平均退化率更高达50%。更关键的是，强模型往往不是简单删除内容，而是将其悄然篡改，这类错误更难被察觉，危害更大。

Q3：企业如何防止大语言模型在工作流程中损坏文档？

A：企业可以从多个维度加以防范：一是采用多智能体协作架构，由不同智能体分别负责编辑和错误校验；二是引入数学验证等确定性方法对输出结果进行准确性核查；三是利用企业自有数据对模型进行针对性微调，使其更适配特定业务场景。同时，保留具备领域专业知识的人员参与监督，也是识别AI潜在错误的重要保障。

来源：InfoWorld

0赞

好文章，需要你的鼓励

大语言模型编辑文档易出错，仅Python领域表现可靠

来源：InfoWorld

2026

05/21

13:38

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

2026年全球AI支出将达2.59万亿美元

97%企业布局AI，却只有5%的数据真正准备好了

无线安全：AI 与 AI 之间的攻防对决

谷歌将YouTube Premium Lite捆绑进最优存储套餐

谷歌全新Omni AI视频工具：用数字分身克隆自己

Android Auto 迎来音乐应用大规模界面重设计，多款主流应用率先落地

Google I/O 2026 发布 Antigravity 2.0：全新桌面应用与命令行工具亮相

Android 17 QPR1 Beta 3：Pixel系统界面引入更多模糊效果

Android 17 QPR1 Beta 3 屏幕录制默认改为上次使用的应用

Android 17新功能"Continue On"：像苹果Handoff一样跨设备无缝切换任务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会