PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 采用 CXL 内存突破 GPU HBM 内存限制，实现 AI 推理任务中 KVCache 重用、长上下文扩展及超低延迟访问，加速大规模模型推理。

PEAK:AIO 声称，它利用 CXL 内存解决 AI 推理模型中 GPU 内存的局限性，而不是将 KVCache 内容卸载到 NVMe 闪存驱动器。

这家总部位于英国的 AI 与 GPU 数据基础设施专业公司表示，AI 工作负载正从 “静态提示” 发展为 “动态上下文流、模型创建流水线以及长运行代理”，而工作负载不断增长，使得 GPU 的高带宽内存 (HBM) 的有限容量受到压力，令 AI 任务受内存瓶颈限制。

这导致任务的工作内存内容——即 KVCache——超出 HBM 容量，令 Token 被驱逐，并在需要时必须重新计算，从而延长任务运行时间。

包括 VAST Data 推出的 VUA、WEKA 推出的 Augmented Memory Grid，以及 Pliops 推出的 XDP LightningAI PCIe-add-in 卡前端连接 NVMe SSD 等多家供应商，均已尝试通过在外部闪存存储上划分一个类似于虚拟内存交换分区的 HBM 内存区域来扩充 HBM 容量。

PEAK:AIO 正在开发一款 1RU Token 内存产品，该产品将采用 CXL 内存、 PCIe gen 5、 NVMe 以及 GPU Direct 与 RDMA 配合。

PEAK:AIO 首席 AI 策略官兼联合创始人 Eyal Lemberger 在一份声明中表示： “无论您是部署跨会话思考的代理，还是扩展到百万 Token 上下文窗口 —— 在此情况下，每个模型的内存需求可能超过 500GB —— 这款设备都能通过将 Token 历史视为内存而非存储来实现扩展。现在是让内存像计算能力一样实现横向扩展的时候了。”

PEAK:AIO 表示，其设备支持： o 会话、模型与节点间的 KVCache 重用 o 扩展上下文窗口以实现更长的大语言模型历史记录 o 通过 CXL 分层实现 GPU 内存卸载 o 以及通过 NVMe-oF 上的 RDMA 实现超低延迟访问

它宣称，通过利用 CXL 内存级性能，其实现的 Token 内存可表现得如同 RAM 而非文件；而其他供应商（包括 Pliops、 VAST 和 WEKA）则无法做到这一点。PEAK:AIO 联合创始人及首席战略官 Mark Klarzynski 表示： “这正是现代 AI 所期待的 Token 内存体系。”

据悉，该技术使 AI 工作负载开发者能够构建一个系统，以内存级延迟缓存 Token 历史、注意力图以及流数据。PEAK:AIO 表示，其方案 “与 Nvidia 的 KVCache 重用及内存回收模型直接契合”，并且 “为基于 TensorRT-LLM 或 Triton 构建的团队提供插件支持，从而以最小的集成工作加速推理过程。”

理论上，PCIe gen 5 CXL 控制器的延迟约为 200 纳秒，而通过 GPU Direct 访问 NVMe SSD 的延迟约为 1.2 毫秒（即 1,200,000 纳秒），比 CXL 内存访问的延迟长约 6,000 倍。PEAK 的 Token 内存设备能够以 <5 微秒的延迟提供高达 150 GB/秒的持续吞吐量。

Lemberger 指出： “当其他厂商试图将文件系统扭曲得像内存时，我们构建了真正表现如内存的基础设施，因为这正是现代 AI 所需要的。在大规模应用中，问题不在于保存文件，而在于能够在微秒级别让每个 Token 均可访问。这实质上是一个内存问题，而我们正是通过拥抱最新硅层技术来解决它。”

PEAK:AIO 的 Token 内存设备为软件定义型，采用现成服务器，并预计将在第三季度投入生产。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

来源：BLOCKS & FILES

2025

05/28

10:00

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

人工智能可能已经在缩减科技行业的入门级岗位，新研究显示

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

OnePlus 全力投身 AI 革新

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

利用数据科学实现医疗健康的超大规模扩展

Notepad、Paint 以及 Snipping Tool 搭载 AI：Microsoft 推出新功能，但并非所有用户均可使用

迈向人工智能赋能万维网的征程：NLWeb 及企业必须了解的事项

真正实现代理式 AI 扩展所需条件

从颠覆到再造：知识工作者如何在 AI 后时代蓬勃发展

报告：Nvidia 加快开发针对中国市场的新型低功耗 Blackwell GPU

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会