AI搜索需要查询组织中的结构化和非结构化数据,而结构化数据不仅包括SQL主导的关系数据库,还包括存储实体间关系的图数据库。图数据库中的条目无法向量化,这排除了生成式AI对此类数据库内容进行自然语言查询的相似性搜索响应,SQL也无法使用。
Neo4j认为它找到了让生成式AI访问其图数据库记录的方法。我们采访了生成式AI创新负责人Andreas Kollegger,了解更多详情。
图数据库与关系数据库的差异
图数据库在数据建模和查询方面采用了不同的方法,专注于数据点之间的关系与数据本身同样重要的用例。它们不仅存储数据,还编码事物关联的语义。这就是图数据库在欺诈检测、推荐引擎、供应链瓶颈分析等场景中表现出色的原因。
关系数据库旨在将结构化数据存储在表中并执行聚合、求和或过滤操作,更适用于会计系统、库存管理、客户记录等事务性应用。在关系数据库中,发现复杂洞察往往需要复杂的JOIN操作和多个查询,随着连接数量的增加变得繁重和低效。然而,图数据库允许直接遍历关系,揭示原本被埋没的洞察。
图查询语言标准化进展
多年来,图数据库缺乏单一的通用查询语言。然而,2024年4月,随着ISO批准的图查询语言(GQL)标准的发布,这一状况发生了改变。GQL是一个跨平台查询图的具体标准,获得了广泛的行业支持。它与Cypher紧密对齐,对SQL用户来说也很熟悉,使得采用变得简单。
Neo4j的Cypher查询语言
Neo4j使用Cypher作为其查询语言,该语言已自然演进为完全符合GQL标准的实现。Cypher设计得可读性强、直观易懂。通过匹配节点与关系的模式,用户可以轻松导航连接的数据,无需编写复杂的JOIN操作。
例如,查找与汤姆·汉克斯相关的所有电影及其关系类型:
```
MATCH (tom:Person {name:'Tom Hanks'})-[r]->(m:Movie)
RETURN type(r) AS type, m.title AS movie
```
生成式AI作为自然语言接口
生成式AI大语言模型可以通过首先解释问题意图,然后将其翻译成正确的查询结构,将自然语言请求映射到Cypher查询。这个过程通常包括三个步骤:意图提取、查询生成和执行后处理。
例如,用户询问"哪些客户在上个月同时购买了产品X和产品Y?",生成式AI系统可以自动生成适当的MATCH和WHERE子句。
向量化的局限性
将图数据库完全向量化会失去其原生结构和语义。向量将数据转换为数值形式,非常适合相似性搜索、机器学习或嵌入文档和图像。然而,图数据库编码节点之间的显式关系,这些关系可以被遍历和分析。
Neo4j确实将原生向量搜索集成为其核心数据库功能的一部分,这种方法结合了基于向量的AI/ML任务方法的优势与图数据库固有强大的丰富可遍历关系。
多模态数据查询的智能体方案
现代AI智能体可以充当编排者,将复杂查询分解为针对每种数据存储量身定制的专门子查询:
- 关系数据库:智能体可以生成SQL查询来过滤、连接和聚合结构化表
- 图数据库:智能体可以将查询的相关部分翻译成Cypher,以发现平面表中不明显的模式或连接
- 非结构化数据:由大语言模型驱动的智能体可以使用向量嵌入来查找语义相关信息
智能体然后聚合结果,使用GraphRAG等检索机制,利用知识图谱的结构在合成连贯响应之前提取相关节点和关系。这种混合方法使用户能够利用每种数据范式的优势,提供比任何单一数据库都更快、更丰富的洞察。
Q&A
Q1:图数据库相比关系数据库有什么优势?
A:图数据库专注于数据点之间的关系与数据本身同样重要的用例,不仅存储数据还编码事物关联的语义。它们在欺诈检测、推荐引擎、供应链瓶颈分析等场景中表现出色,可以直接遍历关系揭示洞察,而关系数据库需要复杂的JOIN操作。
Q2:GQL标准对图数据库发展有什么意义?
A:2024年4月ISO批准的图查询语言(GQL)标准是图数据库发展的重要里程碑。它提供了跨平台查询图的统一标准,获得广泛行业支持,与Cypher紧密对齐且对SQL用户友好,这将显著推动图技术在企业中的广泛采用。
Q3:生成式AI如何帮助普通用户使用Neo4j图数据库?
A:生成式AI大语言模型可以将自然语言请求自动转换为Cypher查询,用户无需学习专门的查询语言。通过意图提取、查询生成和执行后处理三个步骤,用户可以用对话方式与图数据交互,Neo4j的工具还提供拖拽式界面,让任何人都能探索复杂的连接数据。
好文章,需要你的鼓励
Meta宣布为Facebook Dating推出AI聊天机器人助手,帮助用户找到更匹配的对象。该AI可根据用户需求推荐特定类型的匹配者,并协助优化个人资料。同时推出Meet Cute功能,每周提供算法选择的"惊喜匹配"。尽管18-29岁用户匹配数同比增长10%,但相比Tinder的5000万日活用户仍有差距。AI功能已成为约会应用标配,Match Group等竞争对手也在大力投资AI技术。
UC Santa Cruz团队开发的OpenVision 2通过去除文本编码器,将视觉编码器训练简化为纯生成式学习,实现训练时间缩短1.5倍、内存使用减少1.8倍的显著效率提升。研究使用高质量合成数据集和token掩码策略,在保持性能的同时成功训练出10亿参数模型,挑战了CLIP式对比学习的必要性认知。
Neo4j认为已找到让生成式AI访问图数据库记录的方法。图数据库专注于数据点之间的关系建模和查询,在欺诈检测、推荐引擎等场景中表现出色。2024年4月,ISO批准了图查询语言GQL标准,Neo4j的Cypher查询语言完全符合该标准。现代工具提供拖拽式工作流程,GenAI可作为自然语言接口,将用户请求转换为Cypher查询。
华中科技大学团队开发的ReVPT系统首次让AI学会像人类一样主动选择和使用视觉分析工具解决复杂问题。通过创新的两阶段强化学习训练,该系统能根据任务需求灵活调用物体检测、深度估计等专业工具,在多项国际测试中显著超越基础模型,部分指标甚至超越商业化产品,为AI视觉推理能力提升开辟了新路径。