Scality宣布其RING对象存储系统已准备好支持检索增强生成(RAG)工作流,可与向量数据库和LangChain框架结合,为GPT等AI模型提供数据支持。
LangChain提供了将外部数据、内存和工具集成到AI工作流中的工具。在这种情况下,外部数据就是Scality的RING对象存储。向量数据库存储通过数学计算得出的向量,这些向量代表非结构化数据标记化片段的多个方面和维度。GPT或Llama等生成式AI模型只有在客户专有的非结构化数据被转换为向量并提供给它们时,才能在生成响应时使用这些数据。
如果没有这样的向量化处理,RING存储的数据对模型来说是不可见的。AI模型通常在静态、通用数据上进行训练。RAG(检索增强生成)技术让它们能够访问客户的专有数据,这些数据可以是静态的(历史数据)、当前的(实时数据)或两者兼有。这意味着模型能够更好地理解请求的背景和数据环境,从而提供更有针对性的响应。
Scality可以使用LangChain工具将选定的RING内容进行向量化,将其存储在Milvus向量数据库中,并使其可用于GPT-3.5、GPT-4、Llama等AI模型。
根据Scality的文章解释,向量嵌入以代表其含义的方式表示非结构化源数据。输入请求本身也被向量化,输入向量集提供了输入请求含义的抽象表示。然后,大语言模型或智能体在存储从Scality RING系统生成向量的Milvus数据库中搜索相似的向量。
Scality表示:"这使系统能够检索与用户查询在语义上匹配的内容。"例如,询问"如何管理2型糖尿病?"的输入查询可能使模型检测并使用关于"胰岛素敏感性"或"低升糖指数饮食"的文档,因为在语义搜索terms中,它们与输入请求生成的向量集接近。
向量数据库提供基于索引技术的近似最近邻(ANN)等搜索功能。ANN在非常大的搜索空间中寻找与输入模式最接近的近似模式。搜索空间如此之大,以至于逐一检查每个数据点以找到绝对最匹配项是不现实的,会耗费太长时间。
Scality选择Milvus而非其他向量数据库,是因为其查询速度、可扩展性、直接的LangChain集成以及在不同类型数据集上的精度。
公司提供了RING-LangChain-Milvus-GPT 3.5交互的代码示例。
AI推理和训练越来越关注对象存储,而不仅仅是文件存储。Cloudian、DDN、MinIO和VAST Data等供应商都在强调其作为RAG源数据存储和AI管道支持功能的优势。我们可能期待Scality进一步发展这一领域,通过更深入和扩展的功能组件集成来完善其解决方案。
Q&A
Q1:Scality RING如何支持RAG工作流?
A:Scality RING对象存储通过与LangChain框架和向量数据库结合,可以将存储的非结构化数据向量化,然后存储在Milvus向量数据库中,使GPT等AI模型能够访问和使用客户的专有数据进行响应生成。
Q2:为什么需要将数据向量化才能被AI模型使用?
A:因为AI模型通常在静态、通用数据上训练,无法直接理解非结构化数据。通过向量化处理,数据被转换为数学向量形式,代表其含义和维度,这样AI模型就能理解和使用这些专有数据。
Q3:Scality为什么选择Milvus作为向量数据库?
A:Scality选择Milvus是因为其查询速度快、可扩展性强、能直接与LangChain集成,并且在不同类型数据集上具有高精度,这些特性使其成为支持RAG工作流的理想选择。
好文章,需要你的鼓励
美国网络安全和基础设施安全局指示联邦机构修补影响思科ASA 5500-X系列防火墙设备的两个零日漏洞CVE-2025-20362和CVE-2025-20333。这些漏洞可绕过VPN身份验证并获取root访问权限,已被黑客积极利用。攻击与国家支持的ArcaneDoor黑客活动有关,黑客通过漏洞安装bootkit恶意软件并操控只读存储器实现持久化。思科已发布补丁,CISA要求机构清点易受攻击系统并在今日前完成修补。
康考迪亚大学研究团队通过对比混合量子-经典神经网络与传统模型在三个基准数据集上的表现,发现量子增强模型在准确率、训练速度和资源效率方面均显著优于传统方法。研究显示混合模型的优势随数据集复杂度提升而增强,在CIFAR100上准确率提升9.44%,训练速度提升5-12倍,且参数更少。该成果为实用化量子增强人工智能铺平道路。
TimeWave是一款功能全面的计时器应用,超越了苹果自带时钟应用的功能。它支持创建流式计时器,让用户可以设置连续的任务计时,帮助专注工作。应用采用简洁的黑白设计,融入了Liquid Glass元素。内置冥想、番茄工作法、20-20-20护眼等多种计时模式,支持实时活动显示和Siri快捷指令。免费版提供基础功能,高级版需付费订阅。
沙特KAUST大学团队开发了专门针对阿拉伯语的AI模型家族"Hala",通过创新的"翻译再调优"技术路线,将高质量英语指令数据转化为450万规模的阿拉伯语语料库,训练出350M到9B参数的多个模型。在阿拉伯语专项测试中,Hala在同规模模型中表现最佳,证明了语言专门化策略的有效性,为阿拉伯语AI发展和其他语言的专门化模型提供了可复制的技术方案。