AI在理解为人类设计的文档时存在明显障碍,DocLang工作组正致力于解决这一问题,其规范旨在打造"从底层为大语言模型Token处理器构建"的机器可读商业文档格式。
该工作组由IBM、英伟达和红帽共同创立,依托Linux基金会旗下的LF AI & Data项目运营,目标是创建一种开放、通用、AI原生的文档格式,以改善企业在AI系统中准备、交换和管理文档数据的方式。ABBYY和Human Signal也将参与其开发,同时欢迎更多贡献者加入。
工作组在成立公告中表示:"当今企业面对的是碎片化的文档格式生态,包括PDF、JPEG及其他主要面向人类使用而非AI解析的文件类型。"随着企业越来越依赖生成式AI和智能体系统,这种脱节会带来复杂性,提高成本,并降低从商业文档中提取信息的可靠性。
LF AI & Data执行董事马克·科利尔表示,DocLang规范工作组的目标是"开发一套厂商中立、可互操作的标准,帮助企业更可靠、更透明、更大规模地为AI准备文档数据"。
DocLang为任意类型的文档定义了一种结构化、机器可读的格式,类似于数据领域的JSON标准,任何工具都可以实现,任何处理流程都可以调用。它以DocLing为基础构建,后者是LF AI & Data托管的文档处理工具包,能够将面向人类可读的PDF、文字处理文档或电子表格转换为结构化数据。
独立技术分析师卡米·利维表示,DocLang这类规范确实有其必要性。"现有文档标准在过去数十年中表现出色,让全球各方得以顺畅协作,但随着AI重塑工作方式,这些标准亟需更新。"
他指出,那些基本静态的文档类型"在AI重新定义'文档'含义的今天,已显得有些局限。在很多方面,AI时代的文档比过去更具迭代性和动态性,相关定义也需要与时俱进。我们目前使用的文档格式根本没有为AI时代做好准备。"
在此背景下,利维认为"DocLang代表了在文档标准领域建立某种基础基线的早期最佳希望,有望实现比当前更智能、更高效、风险更低的工作流程"。
采用开源、厂商无关的方式推进这一进程,可以确保整体利益优先于特定厂商的需求。他补充道:"早期围绕网络、文档、互联网和云计算的标准制定工作,推动了定义现代生活的自由流动的数字生态。"
利维表示,以AI为核心的文档标准将把这一现实延续到下一代技术之中。
Moor Insights & Strategy首席分析师贾森·安德森表示,大语言模型的整个理念"是运用人类自然语言,让计算机在不改变用户语法或语言习惯的前提下理解我们。强迫用户使用特定语法,正是我们今天在SEO和高级编程语言中遇到的问题"。
对于DocLang这类可应用于内容摄取的标准,他表示"可以接受自动化处理,这似乎也正是其设计初衷。我设想的使用场景是:当我将文档上传给一个智能体时,可以运行一项技能将文档预处理成DocLang标准格式,从而节省Token消耗"。
他认为这很有意义,并补充说,"如果它能帮助生成可在AI工具之外共享的输出内容(比如可视化图表),那就更好了。在这方面,我也很看好Web MCP,因为它只是在页面中添加一些类似CSS或JavaScript的代码,让AI浏览器或技能等消费端更好地处理页面内容。"
他强调,关键在于"这些标准需要保留人类自主操作的能力,用户不需要掌握任何编程知识就能熟练使用。至于治理层面,我认为影响不大"。
然而,也有分析师预见到DocLang在治理方面可能带来的问题。
Info-Tech研究集团高级研究分析师亚兹·帕拉尼查米表示,推广DocLang将要求企业实施并审查相应的控制措施,以便在负责任、安全的前提下实现规模化应用。
Q&A
Q1:DocLang是什么?它和现有文档格式有什么区别?
A:DocLang是由IBM、英伟达和红帽共同发起、Linux基金会LF AI & Data项目托管的一种AI原生文档格式规范。与PDF、JPEG等主要面向人类阅读的传统格式不同,DocLang从底层为大语言模型的Token处理器设计,提供结构化、机器可读的文档标准,类似数据领域的JSON,目标是让AI系统能更可靠、更高效地处理和理解文档内容。
Q2:DocLang和DocLing有什么关系?
A:DocLing是LF AI & Data托管的文档处理工具包,能将PDF、Word文档、电子表格等人类可读文件转换为结构化数据。DocLang则以DocLing为基础构建,定义了一套通用的机器可读文档格式规范,任何工具都可以实现、任何AI处理流程都可以调用,两者是底层工具与上层标准的关系。
Q3:企业采用DocLang需要注意哪些风险?
A:分析师提示,DocLang的推广使用需要企业认真对待治理问题。Info-Tech研究集团分析师亚兹·帕拉尼查米指出,组织在规模化应用DocLang时,需要实施并持续审查相应的控制措施,以确保整个过程的安全性和可问责性,避免在文档数据处理中引入新的合规或安全风险。
好文章,需要你的鼓励
今天讲的出海案例是科创新源,这家高分子材料与液冷板厂商拟用 2.45 亿元收购兆科控制权,并拟通过新加坡智科整合越南制造与海外经营资产。
香港理工大学提出"光学推理",将AI推理步骤渲染为图片代替文字,在五款顶级AI模型测试中平均节省28%令牌,效率近两倍。
苹果高管在最新采访中详细介绍了iOS 27照片应用的三项AI新功能。"空间重构"可在拍摄后调整照片构图视角,仅在视角偏移处生成新内容;"扩展"功能允许用户向外延伸画面最多25%,且每张照片仅限使用一次,防止过度修改;"清除"功能则升级为可处理更复杂的对象。苹果强调,所有功能的核心目标是在保留原始记忆真实感的同时,帮助用户完善影像效果。
卡内基梅隆大学等机构发现,16%的主流AI评测任务存在可被绕过的漏洞,并提出三智能体自动防御方案,将KernelBench攻击成功率从76%降至0%。