PEAK:AIO 声称,它利用 CXL 内存解决 AI 推理模型中 GPU 内存的局限性,而不是将 KVCache 内容卸载到 NVMe 闪存驱动器。
这家总部位于英国的 AI 与 GPU 数据基础设施专业公司表示,AI 工作负载正从 “静态提示” 发展为 “动态上下文流、模型创建流水线 以及 长运行代理”,而工作负载不断增长,使得 GPU 的高带宽内存 (HBM) 的有限容量受到压力,令 AI 任务受内存瓶颈限制。
这导致任务的工作内存内容——即 KVCache——超出 HBM 容量,令 Token 被驱逐,并在需要时必须重新计算,从而延长任务运行时间。
包括 VAST Data 推出的 VUA、WEKA 推出的 Augmented Memory Grid,以及 Pliops 推出的 XDP LightningAI PCIe-add-in 卡前端连接 NVMe SSD 等多家供应商,均已尝试通过在外部闪存存储上划分一个类似于虚拟内存交换分区的 HBM 内存区域来扩充 HBM 容量。
PEAK:AIO 正在开发一款 1RU Token 内存产品,该产品将采用 CXL 内存、 PCIe gen 5、 NVMe 以及 GPU Direct 与 RDMA 配合。
PEAK:AIO 首席 AI 策略官兼联合创始人 Eyal Lemberger 在一份声明中表示: “无论您是部署跨会话思考的代理,还是扩展到百万 Token 上下文窗口 —— 在此情况下,每个模型的内存需求可能超过 500GB —— 这款设备都能通过将 Token 历史视为内存而非存储来实现扩展。现在是让内存像计算能力一样实现横向扩展的时候了。”
PEAK:AIO 表示,其设备支持: o 会话、模型与节点间的 KVCache 重用 o 扩展上下文窗口以实现更长的大语言模型历史记录 o 通过 CXL 分层实现 GPU 内存卸载 o 以及通过 NVMe-oF 上的 RDMA 实现超低延迟访问
它宣称,通过利用 CXL 内存级性能,其实现的 Token 内存可表现得如同 RAM 而非文件;而其他供应商(包括 Pliops、 VAST 和 WEKA)则无法做到这一点。PEAK:AIO 联合创始人及首席战略官 Mark Klarzynski 表示: “这正是现代 AI 所期待的 Token 内存体系。”
据悉,该技术使 AI 工作负载开发者能够构建一个系统,以内存级延迟缓存 Token 历史、注意力图以及流数据。PEAK:AIO 表示,其方案 “与 Nvidia 的 KVCache 重用及内存回收模型直接契合”,并且 “为基于 TensorRT-LLM 或 Triton 构建的团队提供插件支持,从而以最小的集成工作加速推理过程。”
理论上,PCIe gen 5 CXL 控制器的延迟约为 200 纳秒,而通过 GPU Direct 访问 NVMe SSD 的延迟约为 1.2 毫秒(即 1,200,000 纳秒),比 CXL 内存访问的延迟长约 6,000 倍。PEAK 的 Token 内存设备能够以 <5 微秒的延迟提供高达 150 GB/秒的持续吞吐量。
Lemberger 指出: “当其他厂商试图将文件系统扭曲得像内存时,我们构建了真正表现如内存的基础设施,因为这正是现代 AI 所需要的。在大规模应用中,问题不在于保存文件,而在于能够在微秒级别让每个 Token 均可访问。这实质上是一个内存问题,而我们正是通过拥抱最新硅层技术来解决它。”
PEAK:AIO 的 Token 内存设备为软件定义型,采用现成服务器,并预计将在第三季度投入生产。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。