内存限制可以说是当前AI大语言模型(大语言模型)面临的最严峻瓶颈之一。根据一篇颇具影响力的研究论文,大语言模型的Token生成本质上是一项受内存制约的任务,也就是说,模型输出文本的速度取决于从内存读取数据的速度。随着模型规模不断扩大,这一瓶颈愈发明显,形成了制约大语言模型推理性能的"内存墙"。
AI硬件初创公司Majestic Labs正以一种直接而全面的方式来攻克这一难题。该公司正在研发一款名为Prometheus的全新AI服务器,最高可配置128TB内存——这一数字是英伟达DGX B300服务器的60余倍,而DGX B300已是当今领先的AI计算机架。
Majestic Labs联合创始人兼总裁Sha Rabii认为,大幅提升内存容量将为公司赢得竞争优势。他承认"英伟达在构建可扩展系统方面做得非常出色",但同时指出,随着模型规模增长,英伟达的方案经济性逐渐下降,"最终导致计算资源严重过剩,而内存资源却严重不足"。
架构层面的差异化路线
Majestic Labs计划通过一套与竞争对手存在本质差异的架构来突破"内存墙"。
英伟达现有服务器采用高带宽内存(HBM)来读取大语言模型的模型权重,同时配备容量更大但速度较慢的动态随机存取内存(DRAM)用于处理大语言模型及服务器相关开销。Majestic则采用统一架构,全面押注DRAM(具体为LPDDR6)。
Rabii表示,大多数内存接口的设计仅适用于极短的物理距离——有时仅几毫米,这严重限制了可部署的内存容量。"计算芯片上有一个有限的'岸线'用于放置HBM,如果想放更多,根本做不到。"他解释道。
为解决这一问题,Majestic采用了一种由微型铜缆构成的专有内存接口,有效传输距离可达一米。与此同时,他们还配备了自研内存聚合芯片,这些芯片紧邻内存模块放置,负责协调整台服务器的内存运作。
"它是高速接口的端点,并向外扩展连接大量通用DRAM芯片。"Rabii解释说。除了支持大容量内存寻址外,Majestic表示这一设计还能提供高达25.6TB/s的内存带宽。
Ignite:定制AI处理单元
更大的内存容量固然重要,但还需与AI加速能力相结合,这类似于英伟达GPU所承担的角色。Majestic的解决方案是Ignite——一款定制AI处理单元,作为服务器的计算核心。Prometheus服务器内置12颗Ignite芯片。
Ignite在单一芯片上集成了数据中心级ARM应用核心与RISC-V向量及张量核心,并共享同一内存空间。ARM核心充当片上主处理器,负责编排AI模型;RISC-V核心则执行实际的大语言模型处理任务。这种设计使单颗芯片能够处理大语言模型推理的多个环节,无需在不同处理器之间进行任务交接。目前,Majestic Labs尚未公布Prometheus具体的计算性能指标。
软件生态与兼容性
Rabii同样重视软件层面的工作,因为许多AI框架已深度固化于现有工作流程之中。他表示:"我们致力于在客户采用过程中的每个环节减少摩擦,无论是硬件还是软件。"Prometheus将支持PyTorch、vLLM及OpenAI的Triton推理框架,且无需修改任何代码,这意味着兼容上述框架的现有模型可直接运行。
服务器规格与价格展望
在整机规格方面,Prometheus符合开放计算项目(Open Compute Project)标准。单个机架最多可容纳四台服务器,预计每机架总功耗约为120千瓦,并采用冷板液冷方案进行散热管理。服务器的内存设计采用模块化架构,这意味着初始配置内存低于128TB上限的服务器,日后可按需升级。
在定价策略上,尽管Prometheus的内存容量相当惊人,Majestic仍希望以有竞争力的价格切入市场。该公司认为,由于采用DRAM而非HBM,这一目标具有可行性。具体定价尚未公布,Prometheus预计将于2027年正式发货。
"根据不同工作负载,我们客户的资本支出将下降10至50倍,能耗也将同幅下降。"Rabii如此表示。
Q&A
Q1:Prometheus服务器为什么能配置这么大的内存?
A:Prometheus采用了专有的微型铜缆内存接口,有效传输距离可达一米,突破了传统内存接口只能在几毫米内工作的物理限制。同时配备自研内存聚合芯片,统一调度服务器内所有DRAM资源,从而实现最高128TB的超大内存配置,远超采用HBM方案的传统服务器。
Q2:Ignite芯片和英伟达GPU有什么区别?
A:Ignite是Majestic Labs自研的AI处理单元,将数据中心级ARM应用核心与RISC-V向量及张量核心集成在单颗芯片上,并共享统一内存空间。ARM核心负责模型调度,RISC-V核心负责实际的大语言模型推理计算,无需跨处理器传递数据。而英伟达GPU主要依赖HBM与独立主机CPU协同工作,架构逻辑有所不同。
Q3:Prometheus服务器支持哪些主流AI框架?
A:Prometheus支持PyTorch、vLLM以及OpenAI的Triton推理框架,且无需对现有代码进行任何修改。这意味着已基于上述框架开发的大语言模型可以直接在Prometheus上运行,大幅降低了用户的迁移成本和技术门槛。
好文章,需要你的鼓励
今天讲的出海案例是晶方科技,这家传感器先进封装公司通过 WaferTek 在马来西亚建设生产基地,并把新增 3000 万美元投向设备和产线。
这项研究揭示了大语言模型执行演绎推理时,仅约3%的注意力头构成关键"逻辑电路",分工明确,层层协作,一旦关闭这些电路,AI推理能力即刻崩溃。
随着企业将预算向AI倾斜,并大量采用AI编程助手,持H-1B签证的软件开发者正面临日益收窄的就业空间。Meta、亚马逊等科技巨头的裁员潮使工程类岗位需求进一步萎缩,招聘方越来越倾向于具备机器学习、数据科学等AI相关技能的候选人。分析人士指出,AI工具正压缩初级开发者的成长空间,企业也更偏向雇用绿卡持有者和本地公民,H-1B开发者须及早规划签证策略与技能升级路径。
Clark Hash是一种无需训练的句子嵌入压缩工具,将384维向量从1536字节压缩至48字节,通过稀疏随机投影与标量量化实现32倍压缩,同时保持高相似度相关性。