几十年来,企业数据基础设施专注于回答一个问题:"我们的业务发生了什么?"商业智能工具、数据仓库和数据管道都是为了展现历史趋势和性能快照而构建的,揭示过去的销售数据、客户模式和运营指标。当决策由仪表板和季度报告驱动时,这些系统运行良好。
但人工智能已经改变了游戏规则。今天最强大的系统不仅仅是总结过去,它们还能做出实时决策。它们超越了静态观察,实现了动态推理——不仅回答发生了什么,还回答为什么会发生、可能会发生什么,最重要的是,接下来应该采取什么行动。
企业正在意识到,传统架构即使在云环境中也是不够的。AI需要的不仅仅是数据访问,它需要访问意义,并且需要为决策者驱动业务成果。
这就是知识图谱的用武之地。
让AI工作的隐藏层
存在一个更深层的"语义"层,这对AI成功至关重要。企业如何利用其数据资产并暴露上下文、关系和元数据,让AI模型能够进行更深层的推理?知识图谱代表现实世界的实体,如人、地点和产品,以及它们之间的关系。与在表格中存储数据的传统数据库不同,知识图谱将信息组织为节点和边。这使得它们更适合基于上下文进行推理、推断和行动的AI系统。
知识图谱帮助解决了关键的商业智能问题,如脆弱的ETL和过时的仪表板。现在,同样的原理支持AI。当算法必须实时适应和行动时,对新鲜度和连接上下文的需求变得更加关键。构建这一基础需要理解知识图谱在实践中的实际工作方式。
设计能够思考的数据基础设施
一旦认识到对知识图谱的需求,架构就必须演进。这不仅仅是建模挑战,而是数据在整个企业中如何被摄取、连接、治理和激活的根本转变。
将AI数据生命周期分为四个阶段:捕获、处理、分析和激活,治理贯穿始终。
集成是首要任务。有用的知识图谱涵盖结构化、半结构化和非结构化数据源,包括事务日志、PDF和传感器流,所有这些都映射到共享上下文中。实体解析变得基础性:识别CRM中的"John Smith"、电子邮件中的"J. Smith"和员工ID 12345都指向同一个人。关系推理然后发现隐藏链接,如具有相同账单地址的客户或经常一起购买的产品。
接下来,基础设施必须支持图原生操作。传统查询引擎优化过滤和聚合。知识图谱支持遍历——从用户到产品到供应商到文档,遵循关系发现未明确编程的见解。这些遍历必须快速、灵活且语义准确。
最后,新鲜度和可观察性至关重要。过时或不透明的图会导致糟糕的决策。系统必须支持实时更新、血缘跟踪、访问控制以及图质量和性能的监控。
谷歌从十年知识图谱中学到的经验
谷歌花费了十多年时间构建和运行世界上使用最广泛的知识图谱之一。它为搜索、YouTube和地图提供支持,每天为数十亿用户提供上下文结果。
当有人搜索"Jaguar"时,系统不仅返回关键词匹配——它推断他们是在寻找汽车、动物还是运动队。从字符串到实体的转变是现代AI的定义特征。
这种"字符串vs事物"的思维使AI能够对关系而非仅仅模式进行推理。理解意义的能力是真正智能系统的区别所在。
但构建图谱只是工作的一半。大规模运行它——保持新鲜、演进模式、保护隐私和维持速度——是一个持续的工程挑战。你不只是构建一个图谱,而是像核心平台一样运营它。
这就是为什么公司需要具有深厚基础设施和AI专业知识的合作伙伴。知识图谱需要跨摄取、建模、治理和交付的全栈规范。
智能体AI的智能层
随着AI从总结过去转向驱动决策,智能体AI推进得更远——追求业务目标、调用其他工具并跨系统链接行动。这些智能体需要上下文而不仅仅是数据,知识图谱提供了这种上下文。
知识图谱作为智能系统层,构建更智能、更准确和更扎实的智能体,在智能体AI工作流中将数据转化为驱动业务成果的行动。
正如知识图谱解决了商业智能的过时仪表板和脆弱管道一样,它们现在为自主智能体以智能和目标行动所需的实时推理和协调提供动力。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。