访谈:GridGain软件通过集群服务器实现内存共享,使内存密集型应用能够在单台服务器内存不足的情况下正常运行。随着AI推理所需的令牌(编码数据项)数量持续增长,这一能力变得愈发重要。
该软件在x86服务器集群中提供分布式内存空间,采用大规模并行架构。GridGain已捐赠给Apache基金会,成为开源的Apache Ignite分布式数据管理系统,将服务器内存用作组合存储和处理的内存层,并由SSD/HDD层提供备份支持。数据以键值对形式存储并分布在整个集群中。该软件可在本地部署或在AWS、Azure和GCP公有云中运行。
GridGain声称其引擎可用于任何数据驱动的分析或事件处理项目,不仅限于AI应用。该公司表示,其软件提供超低延迟的分布式多模型数据存储和计算引擎,两者结合或共同部署,使企业数据能够实时供AI推理引擎使用。同时消除了数据平面和计算平面之间的数据移动,从而提高端到端数据处理效率。GridGain完全支持ANSI 2016 SQL标准,并提供键值、行、列、文档、非结构化等多种数据处理能力。
我们采访了首席技术官Lalit Ahuja,深入了解GridGain的AI能力。
问:数据以键值对形式存储并分布在集群中。GridGain如何帮助AI大语言模型训练?
Lalit Ahuja:GridGain是一个超低延迟数据处理平台,结合历史/上下文数据的可用性与复杂分析和AI工作负载的执行,实现实时推理。
GridGain尚未用于训练大语言模型(至少我们知晓的范围内没有),但该平台经常用于加速AI模型训练,包括生成训练测试数据或持续训练,可以从传入的交易和事件中实时提取特征或生成向量嵌入,并在GridGain内为模型训练提供支持。
问:在过去12个月中,GridGain在AI大语言模型训练和推理方面取得了哪些成就?
Lalit Ahuja:GridGain在大语言模型领域的最大价值主张是能够为LLM提示和RAG应用引入实时性。通过动态生成向量嵌入,将其写入内存向量存储并供RAG应用使用,GridGain为应用程序实现了更准确、及时、相关的生成式AI交互。
例如,在交互式语音应答系统中,客户的评论被实时处理以生成相关响应和有意义的交互,从而减少客户要求与人工客服通话的时间。同样,在企业事件管理通信中,基于处理事件或事故最新状态作为LLM企业生成式AI应用的提示,实时起草可接受的消息。
问:GridGain专注于x86服务器内存还是GPU(HBM)内存?这两种用例有何不同?
Lalit Ahuja:GridGain并不专门针对某种底层硬件/内存架构。该平台可以与这两种选项配合使用,由最终用户决定哪种对他们更有价值。许多GridGain客户没有基于GPU的基础设施,也不认为需要在此类基础设施上投资,而其他客户(特别是银行业,更具体地说是资本市场子领域)在GPU上运行GridGain,以提高实时风险分析、投资组合管理和自动交易执行决策的执行性能。
问:GridGain是否与下游AI管道或存储供应商集成,为其提供数据加载到内存中?
Lalit Ahuja:GridGain确实与许多上游和下游AI技术(包括管道或存储供应商)集成,但它还为用户提供独特能力,可以实际处理事件和交易,用历史上下文数据丰富它们,提取特征,生成向量,并在这些策划数据上执行任何AI工作负载,所有这些都在交易或事件驱动决策的上下文中进行。GridGain将低延迟分布式内存数据存储与计算引擎结合在同一资源池中的底层能力,最小化了跨网络移动数据或任何形式的磁盘I/O(与读写基于磁盘的存储相关)引入的延迟,使此类处理更高效且真正实时。
问:GridGain内存是否是具有数据摄取和驱逐以及摄取和驱逐缓存规则的缓存?它是如何工作的?
Lalit Ahuja:是的,但功能远不止于此。GridGain是(或可以是)资源集群(服务器、虚拟机、节点、容器等,同时部署在本地、任何云或两者结合),数据分布在集群的内存中。该集群可以在数据中心内或跨数据中心水平扩展。
集群可以配置为维护完整数据完整性,具有ACID合规性和零数据丢失,可选的持久磁盘存储用于备份、快照和时间点恢复功能。在数据管理方面,是的,可以配置驱逐策略来自动管理内存中热数据的生命周期,通过基于策略的驱逐到GridGain自己的管理磁盘存储或任何第三方持久存储。
在数据摄取方面,GridGain公开了许多基于标准的API(Java、C++、C#、SQL、REST、Python等),并与多种商业和开源流媒体和CDC(变更数据捕获)技术集成,用于从各种来源(包括RDBMS、NoSQL数据库、大型机、数据仓库、数据湖)摄取数据,无论是本地还是基于云的。
问:集群服务器内存内容如何保持同步和组织?服务器内存之间是否有通信?
Lalit Ahuja:数据在集群内的各个内存资源之间分区,可选择在集群中复制数据(RF2、RF3等)以实现冗余、高可用性和可配置的即时/严格或最终一致性。集群中的资源不断相互通信;数据一致性和集群组织由GridGain内实现的强大行业标准共识协议管理。
问:GridGain与WEKA的增强内存网格有何关系?
Lalit Ahuja:GridGain的AI数据存储与WEKA的增强内存网格之间存在一些重叠。话虽如此,WEKA类数据网格支持的用例与GridGain擅长的用例略有不同。WEKA的价值可能在于围绕可重复使用AI令牌的规模经济,而GridGain的差异化在于其从原始数据动态生成此类令牌并使其可用于实时AI/分析驱动用例的能力。
基于与任何后端数据存储配合工作的核心设计/功能原则,我们已开始探索与WEKA网格集成,将其作为更多历史分析用例的数据源,围绕趋势、模式、预测等。
问:GridGain是否适用于边缘AI推理用例?
Lalit Ahuja:是的,因为GridGain可以在边缘基础设施上运行——我们在电信和物联网相关边缘计算应用中看到了用途。它可以对从本地传感器、设备或事件流,或其他连接的GridGain集群传递或馈送到边缘集群的相关数据运行本地化计算/分析——全球部署的GridGain集群可以有选择地在彼此之间复制数据,并具有防止网络分段的额外能力(如果这是一个问题的话)。
问:GridGain技术与MemVerge的技术有何关系?
Lalit Ahuja:GridGain与MemVerge的技术没有直接关系,但我们不断评估更好地优化处理能力的方法,并为客户在底层资源管理方面提供经济选择。
问:CXL将如何影响GridGain?
Lalit Ahuja:CXL也是我们正在考虑的技术之一,以帮助优化底层资源的利用。在这种情况下,更多的是为了改善我们的数据复制和可用性能力。
注释:RF-2是恢复力或冗余因子-2,意味着数据在系统中有一个冗余副本。RF-3意味着有两个额外副本,以增强对数据丢失的安全性。
好文章,需要你的鼓励
惠普企业(HPE)发布搭载英伟达Blackwell架构GPU的新服务器,抢占AI技术需求激增市场。IDC预测,搭载GPU的服务器年增长率将达46.7%,占总市场价值近50%。2025年服务器市场预计增长39.9%至2839亿美元。英伟达向微软等大型云服务商大量供应Blackwell GPU,每周部署约7.2万块,可能影响HPE服务器交付时间。HPE在全球服务器市场占13%份额。受美国出口限制影响,国际客户可能面临额外限制。新服务器将于2025年9月2日开始全球发货。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
安全专业协会ISACA面向全球近20万名认证安全专业人员推出AI安全管理高级认证(AAISM)。研究显示61%的安全专业人员担心生成式AI被威胁行为者利用。该认证涵盖AI治理与项目管理、风险管理、技术与控制三个领域,帮助网络安全专业人员掌握AI安全实施、政策制定和风险管控。申请者需持有CISM或CISSP认证。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。