访谈:GridGain软件通过集群服务器实现内存共享,使内存密集型应用能够在单台服务器内存不足的情况下正常运行。随着AI推理所需的令牌(编码数据项)数量持续增长,这一能力变得愈发重要。
该软件在x86服务器集群中提供分布式内存空间,采用大规模并行架构。GridGain已捐赠给Apache基金会,成为开源的Apache Ignite分布式数据管理系统,将服务器内存用作组合存储和处理的内存层,并由SSD/HDD层提供备份支持。数据以键值对形式存储并分布在整个集群中。该软件可在本地部署或在AWS、Azure和GCP公有云中运行。
GridGain声称其引擎可用于任何数据驱动的分析或事件处理项目,不仅限于AI应用。该公司表示,其软件提供超低延迟的分布式多模型数据存储和计算引擎,两者结合或共同部署,使企业数据能够实时供AI推理引擎使用。同时消除了数据平面和计算平面之间的数据移动,从而提高端到端数据处理效率。GridGain完全支持ANSI 2016 SQL标准,并提供键值、行、列、文档、非结构化等多种数据处理能力。
我们采访了首席技术官Lalit Ahuja,深入了解GridGain的AI能力。
问:数据以键值对形式存储并分布在集群中。GridGain如何帮助AI大语言模型训练?
Lalit Ahuja:GridGain是一个超低延迟数据处理平台,结合历史/上下文数据的可用性与复杂分析和AI工作负载的执行,实现实时推理。
GridGain尚未用于训练大语言模型(至少我们知晓的范围内没有),但该平台经常用于加速AI模型训练,包括生成训练测试数据或持续训练,可以从传入的交易和事件中实时提取特征或生成向量嵌入,并在GridGain内为模型训练提供支持。
问:在过去12个月中,GridGain在AI大语言模型训练和推理方面取得了哪些成就?
Lalit Ahuja:GridGain在大语言模型领域的最大价值主张是能够为LLM提示和RAG应用引入实时性。通过动态生成向量嵌入,将其写入内存向量存储并供RAG应用使用,GridGain为应用程序实现了更准确、及时、相关的生成式AI交互。
例如,在交互式语音应答系统中,客户的评论被实时处理以生成相关响应和有意义的交互,从而减少客户要求与人工客服通话的时间。同样,在企业事件管理通信中,基于处理事件或事故最新状态作为LLM企业生成式AI应用的提示,实时起草可接受的消息。
问:GridGain专注于x86服务器内存还是GPU(HBM)内存?这两种用例有何不同?
Lalit Ahuja:GridGain并不专门针对某种底层硬件/内存架构。该平台可以与这两种选项配合使用,由最终用户决定哪种对他们更有价值。许多GridGain客户没有基于GPU的基础设施,也不认为需要在此类基础设施上投资,而其他客户(特别是银行业,更具体地说是资本市场子领域)在GPU上运行GridGain,以提高实时风险分析、投资组合管理和自动交易执行决策的执行性能。
问:GridGain是否与下游AI管道或存储供应商集成,为其提供数据加载到内存中?
Lalit Ahuja:GridGain确实与许多上游和下游AI技术(包括管道或存储供应商)集成,但它还为用户提供独特能力,可以实际处理事件和交易,用历史上下文数据丰富它们,提取特征,生成向量,并在这些策划数据上执行任何AI工作负载,所有这些都在交易或事件驱动决策的上下文中进行。GridGain将低延迟分布式内存数据存储与计算引擎结合在同一资源池中的底层能力,最小化了跨网络移动数据或任何形式的磁盘I/O(与读写基于磁盘的存储相关)引入的延迟,使此类处理更高效且真正实时。
问:GridGain内存是否是具有数据摄取和驱逐以及摄取和驱逐缓存规则的缓存?它是如何工作的?
Lalit Ahuja:是的,但功能远不止于此。GridGain是(或可以是)资源集群(服务器、虚拟机、节点、容器等,同时部署在本地、任何云或两者结合),数据分布在集群的内存中。该集群可以在数据中心内或跨数据中心水平扩展。
集群可以配置为维护完整数据完整性,具有ACID合规性和零数据丢失,可选的持久磁盘存储用于备份、快照和时间点恢复功能。在数据管理方面,是的,可以配置驱逐策略来自动管理内存中热数据的生命周期,通过基于策略的驱逐到GridGain自己的管理磁盘存储或任何第三方持久存储。
在数据摄取方面,GridGain公开了许多基于标准的API(Java、C++、C#、SQL、REST、Python等),并与多种商业和开源流媒体和CDC(变更数据捕获)技术集成,用于从各种来源(包括RDBMS、NoSQL数据库、大型机、数据仓库、数据湖)摄取数据,无论是本地还是基于云的。
问:集群服务器内存内容如何保持同步和组织?服务器内存之间是否有通信?
Lalit Ahuja:数据在集群内的各个内存资源之间分区,可选择在集群中复制数据(RF2、RF3等)以实现冗余、高可用性和可配置的即时/严格或最终一致性。集群中的资源不断相互通信;数据一致性和集群组织由GridGain内实现的强大行业标准共识协议管理。
问:GridGain与WEKA的增强内存网格有何关系?
Lalit Ahuja:GridGain的AI数据存储与WEKA的增强内存网格之间存在一些重叠。话虽如此,WEKA类数据网格支持的用例与GridGain擅长的用例略有不同。WEKA的价值可能在于围绕可重复使用AI令牌的规模经济,而GridGain的差异化在于其从原始数据动态生成此类令牌并使其可用于实时AI/分析驱动用例的能力。
基于与任何后端数据存储配合工作的核心设计/功能原则,我们已开始探索与WEKA网格集成,将其作为更多历史分析用例的数据源,围绕趋势、模式、预测等。
问:GridGain是否适用于边缘AI推理用例?
Lalit Ahuja:是的,因为GridGain可以在边缘基础设施上运行——我们在电信和物联网相关边缘计算应用中看到了用途。它可以对从本地传感器、设备或事件流,或其他连接的GridGain集群传递或馈送到边缘集群的相关数据运行本地化计算/分析——全球部署的GridGain集群可以有选择地在彼此之间复制数据,并具有防止网络分段的额外能力(如果这是一个问题的话)。
问:GridGain技术与MemVerge的技术有何关系?
Lalit Ahuja:GridGain与MemVerge的技术没有直接关系,但我们不断评估更好地优化处理能力的方法,并为客户在底层资源管理方面提供经济选择。
问:CXL将如何影响GridGain?
Lalit Ahuja:CXL也是我们正在考虑的技术之一,以帮助优化底层资源的利用。在这种情况下,更多的是为了改善我们的数据复制和可用性能力。
注释:RF-2是恢复力或冗余因子-2,意味着数据在系统中有一个冗余副本。RF-3意味着有两个额外副本,以增强对数据丢失的安全性。
好文章,需要你的鼓励
Meta豪掷150亿美元押注AI数据工厂Scale AI,19岁辍学的华裔天才如何用"认知套利"打造138亿美元独角兽?"当80%行业信息都是噪音时,独立判断比技术优势更持久。"
中国香港中文大学(深圳)研究团队开发了SRLAgent智能学习系统,通过Minecraft游戏环境结合AI助手帮助大学生培养自主学习能力。实验显示该系统能显著提升学生的学习规划和过程监控能力,但也发现过度AI支持可能产生依赖性,提出需要平衡支持与独立能力培养的重要性。
新任CIO上任第一天可能面临前任留下的IT噩梦。专家建议首先全面评估系统、供应商、策略和人员现状,进行综合资产清单盘点和漏洞扫描。新CIO应与CFO、COO等同级建立联系,倾听IT团队和业务相关方意见,通过小而有意义的胜利建立信誉。关键是平衡紧迫性与同理心,既要进行技术重组也要修复企业文化,以透明度领导并重建组织信心。
韩国科学院研究团队开发了MATTER智能分词系统,解决AI处理材料科学文献时的"翻译问题"。该系统通过MatDetector识别重要材料概念,防止专业术语被错误拆分,在多项材料科学任务中取得显著性能提升,为科学文本处理提供了领域定制化的新思路。