图数据库厂商Neo4j公司今日发布了Infinigraph,称其为分布式图技术的重大进步。
该公司表示,这一架构允许用户在单一图数据库平台上同时运行操作和分析工作负载,处理规模超过100TB,且无需分割图结构、复制基础设施或影响性能。
经过两年多的开发,Infinigraph解决了事务系统与分析工作负载协调的问题。Neo4j的早期版本需要在单台物理计算机上运行,这意味着组织必须使用提取/传输/加载管道、同步或多个数据库来处理大量数据。
Infinigraph通过使用分片技术解决了这一限制。分片是一种将大型数据集拆分为更小、更易管理片段的数据库技术,可支持数十亿关系和数千个并发查询跨多个处理器执行,同时保持事务场景所需的原子性、一致性、隔离性和持久性(ACID)特性。
该公司可以在多台机器间对图数据进行分片,同时保持其逻辑一致性,实现数据的自动分发和扩展,无需应用程序重写或人工干预。
Neo4j表示,新架构允许客户将数千万文档作为向量直接嵌入图中。这使得欺诈检测、产品知识图谱、长期合规监控和语义搜索等用例能够在更大、更丰富的数据量上进行。
Neo4j技术总裁Sudhir Hasbe表示:"我们现在能够在Neo4j数据库中支持数十亿个向量。这在生命科学领域特别有用,公司需要处理数千万份科学文档进行药物发现。过去,这些文档是孤立的。现在,它们可以直接嵌入到图中。"
四年前,Neo4j通过引入Fabric为新架构奠定了基础,实现了跨机器的联邦图查询,但客户必须自己管理分片。Infinigraph自动化了这一过程,同时保持完整的ACID合规性。
"由于遍历查询的存在,图分片是一个困难的问题,"Hasbe说,"我们通过在一个环境中维护全局索引实现快速路径查询,同时将实际数据分布在多台机器上实现水平扩展来解决这个问题。即使是分布式事务也保持一致和可靠。"
Neo4j还强调了图作为生成式AI中使用的向量数据库的价值。AI训练需要结构化和非结构化数据。该公司在2023年首次添加了向量支持,允许文档以向量嵌入的形式存储。Infinigraph实现了更大规模的存储。
"生成式AI使非结构化数据比以往更有价值,"Hasbe说,"我们看到客户从使用Elastic Store处理向量转向在Neo4j内管理一切。这大大简化了他们的技术栈。"
Infinigraph目前在Neo4j自管理企业版中提供早期访问,更广泛的可用性计划在10月推出。该公司表示,该功能很快将在其AuraDB云原生图平台中提供。
Infinigraph的定价将采用解耦模式,分离计算和存储以提供更大的灵活性。"我们正在将定价模式与现代分布式系统的运行方式保持一致,"Hasbe说,"这允许客户扩展工作负载而不会产生意外成本。"他表示,工作负载较小的客户可能会看到成本较当前支付的费用有所下降。
Q&A
Q1:Infinigraph是什么?它解决了什么问题?
A:Infinigraph是Neo4j公司发布的分布式图技术架构,它解决了事务系统与分析工作负载协调的问题。该架构允许用户在单一图数据库平台上同时运行操作和分析工作负载,处理规模超过100TB,无需分割图结构、复制基础设施或影响性能。
Q2:Infinigraph与之前的Neo4j版本有什么区别?
A:之前的Neo4j版本需要在单台物理计算机上运行,组织必须使用多个数据库来处理大量数据。Infinigraph通过分片技术可以在多台机器间对图数据进行分片,同时保持逻辑一致性,实现数据的自动分发和扩展,无需应用程序重写或人工干预。
Q3:Infinigraph在生成式AI方面有什么优势?
A:Infinigraph能够支持数十亿个向量,可以将数千万文档作为向量直接嵌入图中。这在生命科学等领域特别有用,比如处理数千万份科学文档进行药物发现。生成式AI使非结构化数据更有价值,客户可以在Neo4j内管理一切,大大简化技术栈。
好文章,需要你的鼓励
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
AI代码编辑器开发商Cursor完成23亿美元D轮融资,估值达293亿美元。Accel和Coatue领投,Google、Nvidia等参与。公司年化收入已突破10亿美元。Cursor基于微软开源VS Code打造,集成大语言模型帮助开发者编写代码和修复漏洞。其自研Composer模型采用专家混合算法,运行速度比同等质量模型快四倍。公司拥有数百万开发者用户,将用新资金推进AI研究。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。