Phison和SanDisk采用不同策略突破GPU内存瓶颈

随着AI模型规模不断扩大，GPU内存容量已成为瓶颈。Phison和Sandisk分别提出了软硬件解决方案：Phison的aiDAPTIV+软件通过创建跨GPU内存、CPU内存和SSD的虚拟内存池，支持高达700亿参数的模型；而Sandisk的高带宽闪存(HBF)则采用类似HBM的硬件架构，通过TSV连接器将NAND闪存与GPU紧密集成。Phison方案适合中小企业和边缘系统，Sandisk方案则针对大型GPU服务器，两种技术可共存互补。

分析：随着模型规模超过板载容量，GPU正面临内存瓶颈问题。由于GPU内存扩展速度无法满足需求，Phison和SanDisk转向虚拟RAM(VRAM)替代方案——Phison通过软件方式，SanDisk则采用硬件方式——将NAND闪存用作GPU内存缓存。

Phison的aiDAPTIV+软件比SanDisk的硬件方案更快实施，通过避免外部存储token访问加速AI模型训练，并使较小的GPU能够承担更大的任务。SanDisk的高带宽闪存(HBF)承诺提供更高速度，但需要为每个GPU厂商开发半导体级硬件和固件。

据了解，Phison的软件是运行在GPU服务器上的中间件，该服务器配备板载GPU和CPU，并建立一个跨越GPU自身内存(普通GDDR或高带宽内存HBM)、CPU DRAM和SSD的虚拟内存池。

当加载AI模型时，aiDAPTIV+分析其内存需求，将数据切片为热数据(放在GPU内存)、温数据(分配到CPU DRAM)和冷数据(分配到SSD)。SSD是Phison的高速SLC(1比特/单元)驱动器，如其AI100E M.2产品。

随着AI模型运行，每个数据切片的需求会发生变化，aiDAPTIV+软件在三个虚拟内存层之间移动数据，保持GPU忙碌并避免token重新计算。

这使得内存不足的较少数量GPU能够支持大型模型。Phison声称其系统可以支持拥有高达700亿参数的模型，前提是有足够大的VRAM池。这意味着本地AI系统可以训练更大的模型，而无需昂贵地提交给CoreWeave等运营的GPU服务器集群。这也意味着较小、功率较低的GPU以及边缘GPU服务器系统可以运行更大的推理任务，例如Nvidia RTX 6000 Ada或Jetson平台。

由于没有标准GPU HBM/GDDR接口，Phison软件需要与GPU服务器和系统供应商进行定制部署，以实现三个VRAM层之间的数据移动，而无需修改AI应用程序(如PyTorch/TensorFlow)。系统供应商可以获得Phison的AI100E SSD、中间件库许可和支持以促进系统集成。

Phison合作伙伴包括ADLINK Technology、Advantech、华硕、技嘉、Giga Computing、MAINGEAR和StorONE。

Phison工程师内部开发aiDAPTIV+，因为公司无法承担完整高端模型训练系统的费用。CEO K.S. Pua在视频中表示："我的工程师领导来找我，要求我支付数百万美元购买机器进行内部训练，以减轻人力资源负担，改善周期时间，提高效率。但我告诉他们，几百万美元我负担不起。所以他们回到实验室，开始思考如何降低门槛。这些聪明人找到了使用Phison专有企业级SSD的解决方案，使系统能够执行大语言模型训练。"

SanDisk HBF方案

SanDisk的选择需要与GPU供应商密切合作开发，因为它的构建类似于HBM。HBM有DRAM芯片堆叠在逻辑芯片上方，通过硅通孔(TSV)连接器相连。整个堆栈通过专门设计的中介层连接到GPU。

HBF使用相同架构，NAND芯片堆叠层通过TSV连接到底部逻辑层。这被固定到中介层并连接到GPU。但实际更复杂，HBF是对HBM的增强。GPU已经有连接HBM堆栈的中介层，现在需要添加HBF堆栈并扩展中介层以同时处理HBM和HBF，还需要内存控制器在VRAM HBM和HBF组件之间移动数据。

这不涉及CPU DRAM或SSD。据了解，使用HBF系统的GPU服务器需要为每个GPU厂商和产品系列定制设计，这不是即插即用系统，工程成本更高。回报是比aiDAPTIV+系统可能实现的更高内存容量和速度。VRAM中的数据始终比Phison方案更接近GPU，提供更低延迟和更高带宽。

可以将Phison的aiDAPTIV概念视为使较小GPU表现得像具有更多内存的大型GPU，使中型企业和小型边缘系统能够进行AI训练。SanDisk的HBF则使受内存限制的大型GPU服务器能够通过大幅扩展内存容量来训练最大规模模型。

Phison和SanDisk技术针对不同需求，可以共存。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

Phison和SanDisk采用不同策略突破GPU内存瓶颈

来源：BLOCKS & FILES

2025

07/29

07:52

分享

点赞

数智惠闽企，展车进福州｜华为坤灵中国行2025·福建站成功举办，推动闽企智能化发展新征程

AI时代的影像实验：记录你眼中的“变化”

大象转身，亦或重塑大象：Unity团结引擎的“中国本土”进化

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

AI爬虫让“价格战”变成“算法战”，利润正在被看不见的流量吞噬 AI 爬虫程序流量在短短一年内暴增 300%

做好可持续数字化转型的“必答题”

SUSE Linux Enterprise Server (SLES) 16全新发布：AI赋能，智领企业管理

SAP商业AI获乌镇峰会精品案例奖，助推中国企业实现确定性增长

专访｜Cloudera致力于打造AI时代的企业级“数据操作系统”

专访｜AI浪潮下的“卖水人”：Cloudera解构企业AI的“源”与“治”

SAP TechEd柏林观察：企业AI如何发挥飞轮效应?

CIO策略观察——软件测试：从传统困局到 AI 无人测试转型

Mistral AI公布环境审计报告揭示AI隐藏成本

认为AGI和AI超级智能将揭示生命真谛的想法

剑桥咨询CEO蒙蒂·巴洛探寻科技前沿新机遇

AI如何悄然改变我们居住的城市面貌

谷歌推出无代码Opal工具，助力构建AI迷你应用

AI模型中隐性有害特征的无声传播现象

当进步不再让人感到归属：为何许多人对加入AI迁移心存犹豫

1MW机架与供应链韧性：规划未来数据中心

新型AI架构推理速度比大语言模型快100倍，仅需1000个训练样本

Alexa+预览：一场近乎哲学的体验测试

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: