DocLang:专为AI设计的机器可读文档格式标准

由IBM、英伟达和Red Hat发起,Linux基金会旗下LF AI & Data项目托管的DocLang工作组,致力于打造一种开放、通用、面向AI的文档格式标准。现有PDF、JPEG等文档格式主要面向人类阅读,难以被AI高效解析,导致企业在利用生成式AI处理业务文档时面临复杂性高、成本上升、可靠性下降等问题。DocLang旨在构建类似JSON的结构化机器可读格式,提升企业文档数据的准备、交换与治理效率。

AI在理解为人类设计的文档时存在明显障碍,DocLang工作组正致力于解决这一问题,其规范旨在打造"从底层为大语言模型Token处理器构建"的机器可读商业文档格式。

该工作组由IBM、英伟达和红帽共同创立,依托Linux基金会旗下的LF AI & Data项目运营,目标是创建一种开放、通用、AI原生的文档格式,以改善企业在AI系统中准备、交换和管理文档数据的方式。ABBYY和Human Signal也将参与其开发,同时欢迎更多贡献者加入。

工作组在成立公告中表示:"当今企业面对的是碎片化的文档格式生态,包括PDF、JPEG及其他主要面向人类使用而非AI解析的文件类型。"随着企业越来越依赖生成式AI和智能体系统,这种脱节会带来复杂性,提高成本,并降低从商业文档中提取信息的可靠性。

LF AI & Data执行董事马克·科利尔表示,DocLang规范工作组的目标是"开发一套厂商中立、可互操作的标准,帮助企业更可靠、更透明、更大规模地为AI准备文档数据"。

DocLang为任意类型的文档定义了一种结构化、机器可读的格式,类似于数据领域的JSON标准,任何工具都可以实现,任何处理流程都可以调用。它以DocLing为基础构建,后者是LF AI & Data托管的文档处理工具包,能够将面向人类可读的PDF、文字处理文档或电子表格转换为结构化数据。

独立技术分析师卡米·利维表示,DocLang这类规范确实有其必要性。"现有文档标准在过去数十年中表现出色,让全球各方得以顺畅协作,但随着AI重塑工作方式,这些标准亟需更新。"

他指出,那些基本静态的文档类型"在AI重新定义'文档'含义的今天,已显得有些局限。在很多方面,AI时代的文档比过去更具迭代性和动态性,相关定义也需要与时俱进。我们目前使用的文档格式根本没有为AI时代做好准备。"

在此背景下,利维认为"DocLang代表了在文档标准领域建立某种基础基线的早期最佳希望,有望实现比当前更智能、更高效、风险更低的工作流程"。

采用开源、厂商无关的方式推进这一进程,可以确保整体利益优先于特定厂商的需求。他补充道:"早期围绕网络、文档、互联网和云计算的标准制定工作,推动了定义现代生活的自由流动的数字生态。"

利维表示,以AI为核心的文档标准将把这一现实延续到下一代技术之中。

Moor Insights & Strategy首席分析师贾森·安德森表示,大语言模型的整个理念"是运用人类自然语言,让计算机在不改变用户语法或语言习惯的前提下理解我们。强迫用户使用特定语法,正是我们今天在SEO和高级编程语言中遇到的问题"。

对于DocLang这类可应用于内容摄取的标准,他表示"可以接受自动化处理,这似乎也正是其设计初衷。我设想的使用场景是:当我将文档上传给一个智能体时,可以运行一项技能将文档预处理成DocLang标准格式,从而节省Token消耗"。

他认为这很有意义,并补充说,"如果它能帮助生成可在AI工具之外共享的输出内容(比如可视化图表),那就更好了。在这方面,我也很看好Web MCP,因为它只是在页面中添加一些类似CSS或JavaScript的代码,让AI浏览器或技能等消费端更好地处理页面内容。"

他强调,关键在于"这些标准需要保留人类自主操作的能力,用户不需要掌握任何编程知识就能熟练使用。至于治理层面,我认为影响不大"。

然而,也有分析师预见到DocLang在治理方面可能带来的问题。

Info-Tech研究集团高级研究分析师亚兹·帕拉尼查米表示,推广DocLang将要求企业实施并审查相应的控制措施,以便在负责任、安全的前提下实现规模化应用。

Q&A

Q1:DocLang是什么?它和现有文档格式有什么区别?

A:DocLang是由IBM、英伟达和红帽共同发起、Linux基金会LF AI & Data项目托管的一种AI原生文档格式规范。与PDF、JPEG等主要面向人类阅读的传统格式不同,DocLang从底层为大语言模型的Token处理器设计,提供结构化、机器可读的文档标准,类似数据领域的JSON,目标是让AI系统能更可靠、更高效地处理和理解文档内容。

Q2:DocLang和DocLing有什么关系?

A:DocLing是LF AI & Data托管的文档处理工具包,能将PDF、Word文档、电子表格等人类可读文件转换为结构化数据。DocLang则以DocLing为基础构建,定义了一套通用的机器可读文档格式规范,任何工具都可以实现、任何AI处理流程都可以调用,两者是底层工具与上层标准的关系。

Q3:企业采用DocLang需要注意哪些风险?

A:分析师提示,DocLang的推广使用需要企业认真对待治理问题。Info-Tech研究集团分析师亚兹·帕拉尼查米指出,组织在规模化应用DocLang时,需要实施并持续审查相应的控制措施,以确保整个过程的安全性和可问责性,避免在文档数据处理中引入新的合规或安全风险。

来源:Computerworld

0赞

好文章,需要你的鼓励

2026

06/15

15:40

分享

点赞

邮件订阅