AI搜索需要查询组织中的结构化和非结构化数据,而结构化数据不仅包括SQL主导的关系数据库,还包括存储实体间关系的图数据库。图数据库中的条目无法向量化,这排除了生成式AI对此类数据库内容进行自然语言查询的相似性搜索响应,SQL也无法使用。
Neo4j认为它找到了让生成式AI访问其图数据库记录的方法。我们采访了生成式AI创新负责人Andreas Kollegger,了解更多详情。
图数据库与关系数据库的差异
图数据库在数据建模和查询方面采用了不同的方法,专注于数据点之间的关系与数据本身同样重要的用例。它们不仅存储数据,还编码事物关联的语义。这就是图数据库在欺诈检测、推荐引擎、供应链瓶颈分析等场景中表现出色的原因。
关系数据库旨在将结构化数据存储在表中并执行聚合、求和或过滤操作,更适用于会计系统、库存管理、客户记录等事务性应用。在关系数据库中,发现复杂洞察往往需要复杂的JOIN操作和多个查询,随着连接数量的增加变得繁重和低效。然而,图数据库允许直接遍历关系,揭示原本被埋没的洞察。
图查询语言标准化进展
多年来,图数据库缺乏单一的通用查询语言。然而,2024年4月,随着ISO批准的图查询语言(GQL)标准的发布,这一状况发生了改变。GQL是一个跨平台查询图的具体标准,获得了广泛的行业支持。它与Cypher紧密对齐,对SQL用户来说也很熟悉,使得采用变得简单。
Neo4j的Cypher查询语言
Neo4j使用Cypher作为其查询语言,该语言已自然演进为完全符合GQL标准的实现。Cypher设计得可读性强、直观易懂。通过匹配节点与关系的模式,用户可以轻松导航连接的数据,无需编写复杂的JOIN操作。
例如,查找与汤姆·汉克斯相关的所有电影及其关系类型:
```
MATCH (tom:Person {name:'Tom Hanks'})-[r]->(m:Movie)
RETURN type(r) AS type, m.title AS movie
```
生成式AI作为自然语言接口
生成式AI大语言模型可以通过首先解释问题意图,然后将其翻译成正确的查询结构,将自然语言请求映射到Cypher查询。这个过程通常包括三个步骤:意图提取、查询生成和执行后处理。
例如,用户询问"哪些客户在上个月同时购买了产品X和产品Y?",生成式AI系统可以自动生成适当的MATCH和WHERE子句。
向量化的局限性
将图数据库完全向量化会失去其原生结构和语义。向量将数据转换为数值形式,非常适合相似性搜索、机器学习或嵌入文档和图像。然而,图数据库编码节点之间的显式关系,这些关系可以被遍历和分析。
Neo4j确实将原生向量搜索集成为其核心数据库功能的一部分,这种方法结合了基于向量的AI/ML任务方法的优势与图数据库固有强大的丰富可遍历关系。
多模态数据查询的智能体方案
现代AI智能体可以充当编排者,将复杂查询分解为针对每种数据存储量身定制的专门子查询:
- 关系数据库:智能体可以生成SQL查询来过滤、连接和聚合结构化表
- 图数据库:智能体可以将查询的相关部分翻译成Cypher,以发现平面表中不明显的模式或连接
- 非结构化数据:由大语言模型驱动的智能体可以使用向量嵌入来查找语义相关信息
智能体然后聚合结果,使用GraphRAG等检索机制,利用知识图谱的结构在合成连贯响应之前提取相关节点和关系。这种混合方法使用户能够利用每种数据范式的优势,提供比任何单一数据库都更快、更丰富的洞察。
Q&A
Q1:图数据库相比关系数据库有什么优势?
A:图数据库专注于数据点之间的关系与数据本身同样重要的用例,不仅存储数据还编码事物关联的语义。它们在欺诈检测、推荐引擎、供应链瓶颈分析等场景中表现出色,可以直接遍历关系揭示洞察,而关系数据库需要复杂的JOIN操作。
Q2:GQL标准对图数据库发展有什么意义?
A:2024年4月ISO批准的图查询语言(GQL)标准是图数据库发展的重要里程碑。它提供了跨平台查询图的统一标准,获得广泛行业支持,与Cypher紧密对齐且对SQL用户友好,这将显著推动图技术在企业中的广泛采用。
Q3:生成式AI如何帮助普通用户使用Neo4j图数据库?
A:生成式AI大语言模型可以将自然语言请求自动转换为Cypher查询,用户无需学习专门的查询语言。通过意图提取、查询生成和执行后处理三个步骤,用户可以用对话方式与图数据交互,Neo4j的工具还提供拖拽式界面,让任何人都能探索复杂的连接数据。
好文章,需要你的鼓励
ChatGPT发布三年后,物理AI成为行业最新热词。物理AI是指在硬件中实现的AI系统,能够感知周围世界并进行推理以执行操作。与传统机器人不同,物理AI具备推理、行动和与环境交互的能力。智能眼镜是物理AI的典型代表,能够看到和听到用户所体验的内容。高通专家指出,AI可穿戴设备可以为机器人提供基于真实人类体验的高质量数据集,形成良性生态系统。
德国弗劳恩霍夫研究院提出ViTNT-FIQA人脸质量评估新方法,无需训练即可评估图像质量。该方法基于Vision Transformer层间特征稳定性原理,通过测量图像块在相邻层级间的变化幅度判断质量。在八个国际数据集上的实验显示其性能可媲美现有最先进方法,且计算效率更高,为人脸识别系统提供了即插即用的质量控制解决方案,有望广泛应用于安防监控和身份认证等领域。
来自加州大学伯克利分校和康奈尔大学的研究团队,通过分析130万篇学术论文发现,使用ChatGPT等AI工具的科学家论文产出平均提升40-60%,且英语非母语研究者受益最大。
布朗大学联合图宾根大学的研究团队通过系统实验发现,AI医疗助手的角色设定会产生显著的情境依赖效应:医疗专业角色在急诊场景下表现卓越,准确率提升20%,但在普通医疗咨询中反而表现更差。研究揭示了AI角色扮演的"双刃剑"特性,强调需要根据具体应用场景精心设计AI身份,而非简单假设"更专业等于更安全",为AI医疗系统的安全部署提供了重要指导。