分析:随着模型规模超过板载容量,GPU正面临内存瓶颈问题。由于GPU内存扩展速度无法满足需求,Phison和SanDisk转向虚拟RAM(VRAM)替代方案——Phison通过软件方式,SanDisk则采用硬件方式——将NAND闪存用作GPU内存缓存。
Phison的aiDAPTIV+软件比SanDisk的硬件方案更快实施,通过避免外部存储token访问加速AI模型训练,并使较小的GPU能够承担更大的任务。SanDisk的高带宽闪存(HBF)承诺提供更高速度,但需要为每个GPU厂商开发半导体级硬件和固件。
据了解,Phison的软件是运行在GPU服务器上的中间件,该服务器配备板载GPU和CPU,并建立一个跨越GPU自身内存(普通GDDR或高带宽内存HBM)、CPU DRAM和SSD的虚拟内存池。
当加载AI模型时,aiDAPTIV+分析其内存需求,将数据切片为热数据(放在GPU内存)、温数据(分配到CPU DRAM)和冷数据(分配到SSD)。SSD是Phison的高速SLC(1比特/单元)驱动器,如其AI100E M.2产品。
随着AI模型运行,每个数据切片的需求会发生变化,aiDAPTIV+软件在三个虚拟内存层之间移动数据,保持GPU忙碌并避免token重新计算。
这使得内存不足的较少数量GPU能够支持大型模型。Phison声称其系统可以支持拥有高达700亿参数的模型,前提是有足够大的VRAM池。这意味着本地AI系统可以训练更大的模型,而无需昂贵地提交给CoreWeave等运营的GPU服务器集群。这也意味着较小、功率较低的GPU以及边缘GPU服务器系统可以运行更大的推理任务,例如Nvidia RTX 6000 Ada或Jetson平台。
由于没有标准GPU HBM/GDDR接口,Phison软件需要与GPU服务器和系统供应商进行定制部署,以实现三个VRAM层之间的数据移动,而无需修改AI应用程序(如PyTorch/TensorFlow)。系统供应商可以获得Phison的AI100E SSD、中间件库许可和支持以促进系统集成。
Phison合作伙伴包括ADLINK Technology、Advantech、华硕、技嘉、Giga Computing、MAINGEAR和StorONE。
Phison工程师内部开发aiDAPTIV+,因为公司无法承担完整高端模型训练系统的费用。CEO K.S. Pua在视频中表示:"我的工程师领导来找我,要求我支付数百万美元购买机器进行内部训练,以减轻人力资源负担,改善周期时间,提高效率。但我告诉他们,几百万美元我负担不起。所以他们回到实验室,开始思考如何降低门槛。这些聪明人找到了使用Phison专有企业级SSD的解决方案,使系统能够执行大语言模型训练。"
SanDisk HBF方案
SanDisk的选择需要与GPU供应商密切合作开发,因为它的构建类似于HBM。HBM有DRAM芯片堆叠在逻辑芯片上方,通过硅通孔(TSV)连接器相连。整个堆栈通过专门设计的中介层连接到GPU。
HBF使用相同架构,NAND芯片堆叠层通过TSV连接到底部逻辑层。这被固定到中介层并连接到GPU。但实际更复杂,HBF是对HBM的增强。GPU已经有连接HBM堆栈的中介层,现在需要添加HBF堆栈并扩展中介层以同时处理HBM和HBF,还需要内存控制器在VRAM HBM和HBF组件之间移动数据。
这不涉及CPU DRAM或SSD。据了解,使用HBF系统的GPU服务器需要为每个GPU厂商和产品系列定制设计,这不是即插即用系统,工程成本更高。回报是比aiDAPTIV+系统可能实现的更高内存容量和速度。VRAM中的数据始终比Phison方案更接近GPU,提供更低延迟和更高带宽。
可以将Phison的aiDAPTIV概念视为使较小GPU表现得像具有更多内存的大型GPU,使中型企业和小型边缘系统能够进行AI训练。SanDisk的HBF则使受内存限制的大型GPU服务器能够通过大幅扩展内存容量来训练最大规模模型。
Phison和SanDisk技术针对不同需求,可以共存。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。