大语言模型 (LLM) 擅长从非结构化数据中学习。但企业所拥有的大量专有价值被锁在关系数据库、电子表格和其他结构化文件类型中。
大型企业长期以来一直使用知识图谱来更好地理解数据点之间的潜在关系,但这些图谱难以构建和维护,需要开发人员、数据工程师和了解数据实际含义的领域专家付出努力。
知识图谱是位于原始数据存储之上的连接层,将信息转化为具有上下文意义的知识。因此理论上,它们是帮助 LLM 理解企业数据集含义的绝佳方式,使公司更容易、更高效地找到相关数据嵌入查询中,同时使 LLM 本身更快速、更准确。
2023 年 6 月,Gartner 研究人员表示,数据和分析领导者必须利用 LLM 的力量和知识图谱的稳健性来构建容错 AI 应用。供应商们迅速采取行动。第一个重大公告是图数据库公司 NebulaGraph 在 2023 年 9 月发布的。他们的工具 Graph RAG 使企业更容易将知识图谱作为检索增强生成 (RAG) 实现的一部分。
RAG 是指不仅仅向 LLM 发送简单问题,公司还通过从向量数据库嵌入相关文档或信息来为问题添加上下文。没有 RAG,LLM 只知道它们被训练的内容。有了 RAG,公司可以添加最新信息或公司特有的信息。例如,如果要求 LLM 提供公司产品信息,该产品的手册和其他参考资料将非常有帮助。
Microsoft 在 2 月宣布了其 GraphRAG 项目,并在 7 月开源。图数据库公司 Neo4j 也构建了 LLM Graph Transformer 工具,并在 3 月捐赠给开源 LangChain 项目。4 月,该工具作为 Google 的 GraphRAG 实现的一部分集成到 Google Cloud 和 Vertex AI 中。
最近,在 12 月初,Amazon 也宣布通过 Amazon Neptune Analytics 支持 GraphRAG,作为 Amazon Bedrock Knowledge Bases 的一部分。
在这些活动的推动下,Gartner 在 11 月将 GraphRAG 列入其 2024 年生成式 AI 炒作周期,位于夸大期望峰值的半山腰。Gartner 表示 GraphRAG 需要 2-5 年才能达到成熟。相比之下,位于 GraphRAG 下方的自主代理需要 5-10 年。
Gartner 表示,GraphRAG 提高了 RAG 系统的准确性、可靠性和可解释性,但缺点是将知识图谱与生成式 AI 模型集成在技术上复杂且计算成本高。更不用说知识图谱本身就不是一件容易的事。
ISG Research 的数据和分析研究总监 Matt Aslett 说:"我在数据领域工作了 20 年,至少有一半时间,人们一直在尝试推广知识图谱。"
他补充说,一些组织已经投资了这项技术,比如大型媒体和出版公司,或从事药物研发的制药公司。例如,诺华使用图数据库将其内部数据与外部研究摘要数据库链接起来,目标是链接基因、疾病和化合物以加速药物研发。
Intuit 使用 Neo4j 技术在知识图谱上构建了其安全知识平台,每小时有 7500 万次数据库更新被输入图谱。但 Aslett 说,大多数企业并不使用知识图谱。需要整合数据的公司通常只进行一次性的数据集成项目。
他补充说:"如果你已经经历了知识图谱的过程,那么让这些信息也可用于你的 AI 项目是有意义的。但如果你还没有,那么你首先需要完成这个大项目,将信息转化为知识图谱。"
在过去,这将是一个令人生畏的提议。但现在生成式 AI 正被用来帮助创建这些知识图谱,加速将企业数据转化为可行洞察的良性循环,同时提高 LLM 的准确性,降低成本和延迟。
更好供应的需求
知识图谱可以内置于数据库中,位于数据库之上,链接多个数据库,甚至可以从其他来源获取信息,所有这些都无需更改底层数据结构。
在传统关系数据库中,数据点之间的关系是数据库结构本身的一部分,通常仅限于关键信息。例如,客户记录可能通过共同的客户识别号与个别交易链接。而这些交易又可以通过共同的产品 ID 链接到产品数据库。
但要发现特定群体的客户都有相同的偏好会稍微复杂一些,当关系更加微妙时,事情会变得更加复杂。
通过知识图谱明确所有这些关系,可以在需要为 LLM 提供回答问题所需的上下文时更容易提取所有相关信息,从而产生更准确的结果。
企业通常使用 RAG 嵌入来用其专有知识增强 LLM 查询,但专家估计准确率通常高达 70%。
Data2(一家致力于解决准确性问题的软件创业公司)的 CTO Daniel Bukowski 说:"传统的检索增强生成等方法通常无法达到 80% 以上的准确率。虽然这对某些用途可能足够,但许多行业和情况需要达到或接近 99%。"
Neo4j 的 COO Sudhir Hasbe 补充说,LLM 针对非结构化数据进行了优化。"但很多企业数据也是结构化的。那么如何将结构化和非结构化数据结合起来回答问题呢?你希望能够获得答案,更重要的是,解释为什么你得到这个答案。"
他说,知识图谱减少了幻觉,但它们也有助于解决可解释性挑战。Infosys 的 EVP Anant Adya 表示,知识图谱位于传统数据库之上,提供连接和更深入理解的层面。他说:"你可以进行更好的上下文搜索,这有助于你获得更好的洞察。"
Infosys 现在正在运行概念验证,使用知识图谱将公司多年积累的知识与生成式 AI 工具结合起来。他说:"我们正在识别那些可以产生更大影响的用例。"这些包括自动知识提取、预算编制、采购和企业规划。他补充说:"但这还很早期,还没有投入生产。"
LinkedIn 是一家部署知识图谱来提高生成式 AI 性能并撰写相关文章的公司。在 4 月发表的一篇论文中,LinkedIn 报告称,将 RAG 与知识图谱结合帮助其提高客户服务生成式 AI 应用的准确率达 78%。在此前的六个月里,这种组合被 LinkedIn 的客户服务团队使用,将每个问题的中位数解决时间减少了 29%。
降低成本和延迟
当将生成式 AI 功能添加到企业工作流程中时,查询通常会增加相关信息,通常来自向量数据库。可以添加到查询中的信息越多,LLM 就有更多上下文来生成响应。
EY 的技术、媒体、娱乐和电信 AI 负责人 Vamsi Duvvuri 说:"但我提供的上下文和文档越多,RAG 就变得越来越大,我的系统也变得越来越慢。"此外,生成式 AI 供应商通常按 token 收费;他们的模型处理的信息越多,成本就越高。
根据 Microsoft 4 月的研究论文,GraphRAG 所需的 token 减少了高达 97%,同时仍然提供比标准 RAG 更全面的答案。
当知识图谱作为 RAG 基础设施的一部分使用时,可以使用显式连接快速锁定最相关的信息。Duvvuri 说:"它变得非常高效。"他说公司正在利用这一点。"棘手的问题是有多少这样的解决方案在生产中看到,这是相当罕见的。但这对许多生成式 AI 应用来说都是如此。"
利用 LLM
创建知识图谱的挑战在于需要真正的专业知识。对于大型复杂数据集来说,这尤其困难,而这恰恰是最需要知识图谱的地方。创建知识图谱的大部分硬工作是建立本体,如定义术语、决定分类,以及找出两个不同数据之间的某种关联。ISG 的 Aslett 说:"这是生成式 AI 可以擅长的领域。"他说,一些供应商已经在尝试提供这种功能,但工具仍处于早期开发阶段。
在生成式 AI 之前,公司曾试图用机器学习创建知识图谱。Duvvuri 说:"我们过去使用自然语言处理来创建知识图谱,使用命名实体识别并使用共现创建关系。创建过程非常耗时,因为 NLP 管道需要训练。这是一种高投入的方式。"
今天,LLM 显著减少了创建知识图谱所需的时间。
他说:"我个人使用大语言模型创建过知识图谱。这是提取关系的绝佳方式。使用大语言模型加速了知识图谱的力量,将知识图谱添加到 LLM 中加速了其性能并改善了成本。"
卡内基梅隆大学泰珀商学院会计学教授 Pierre Liang 说,生成式 AI 有一种不可思议的方式来生成以前不可能生成的知识。他说:"我在实验室里看到过这样的例子。企业使用 LLM 帮助我们生成和使用知识图谱的机会非常有前途。"
好文章,需要你的鼓励
Intermedia 推出业内首个将统一通信和客户体验功能完全嵌入微软 Teams 的服务。这项创新不仅提升了 Teams 用户的生产力,还改善了客户体验。新功能支持多渠道通信、企业级通话功能和 AI 分析,为企业提供了一个强大的通信和客户体验平台。
Komprise 推出了 AI 驱动的数据管道,可自动检测和保护个人隐私信息 (PII)。这项新功能旨在帮助企业防止 PII 和其他敏感数据泄露,应对非结构化数据增长和生成式 AI 带来的风险。通过系统化方法减少敏感数据风险,提升网络安全和 AI 数据治理能力。
Oumi PBC公司宣布推出全球首个"无条件开放的AI平台",旨在通过提供开放访问基础模型、数据集和开发工具,创建协作式AI研发生态系统。该平台支持从1000万到4050亿参数的模型训练,适用于文本和多模态模型,并集成了多种流行的推理引擎。Oumi致力于打破当前AI研究领域的创新壁垒,加速AI领域的进展和发现。
阿里云发布最新大语言模型 Qwen 2.5-Max,声称性能超越当前最强 AI 模型。该模型采用专家混合架构,经过 20 万亿 token 预训练和后续强化学习,在多项基准测试中超越 DeepSeek-V3 等模型。Qwen 2.5-Max 目前通过阿里云 API 提供服务,但尚未开源。