Majestic Labs推出Prometheus服务器，突破AI大语言模型"内存瓶颈"

内存是现代AI大语言模型最严重的制约因素。AI硬件初创公司Majestic Labs开发的Prometheus服务器配备高达128TB内存，是英伟达DGX B300服务器的60多倍。该服务器采用统一DRAM架构，使用专有内存接口和定制聚合芯片，内存带宽达25.6TB/秒，搭载12颗Ignite AI处理单元，预计2027年出货。

内存限制可以说是当前AI大语言模型（大语言模型）面临的最严峻瓶颈之一。根据一篇颇具影响力的研究论文，大语言模型的Token生成本质上是一项受内存制约的任务，也就是说，模型输出文本的速度取决于从内存读取数据的速度。随着模型规模不断扩大，这一瓶颈愈发明显，形成了制约大语言模型推理性能的"内存墙"。

AI硬件初创公司Majestic Labs正以一种直接而全面的方式来攻克这一难题。该公司正在研发一款名为Prometheus的全新AI服务器，最高可配置128TB内存——这一数字是英伟达DGX B300服务器的60余倍，而DGX B300已是当今领先的AI计算机架。

Majestic Labs联合创始人兼总裁Sha Rabii认为，大幅提升内存容量将为公司赢得竞争优势。他承认"英伟达在构建可扩展系统方面做得非常出色"，但同时指出，随着模型规模增长，英伟达的方案经济性逐渐下降，"最终导致计算资源严重过剩，而内存资源却严重不足"。

架构层面的差异化路线

Majestic Labs计划通过一套与竞争对手存在本质差异的架构来突破"内存墙"。

英伟达现有服务器采用高带宽内存（HBM）来读取大语言模型的模型权重，同时配备容量更大但速度较慢的动态随机存取内存（DRAM）用于处理大语言模型及服务器相关开销。Majestic则采用统一架构，全面押注DRAM（具体为LPDDR6）。

Rabii表示，大多数内存接口的设计仅适用于极短的物理距离——有时仅几毫米，这严重限制了可部署的内存容量。"计算芯片上有一个有限的'岸线'用于放置HBM，如果想放更多，根本做不到。"他解释道。

为解决这一问题，Majestic采用了一种由微型铜缆构成的专有内存接口，有效传输距离可达一米。与此同时，他们还配备了自研内存聚合芯片，这些芯片紧邻内存模块放置，负责协调整台服务器的内存运作。

"它是高速接口的端点，并向外扩展连接大量通用DRAM芯片。"Rabii解释说。除了支持大容量内存寻址外，Majestic表示这一设计还能提供高达25.6TB/s的内存带宽。

Ignite：定制AI处理单元

更大的内存容量固然重要，但还需与AI加速能力相结合，这类似于英伟达GPU所承担的角色。Majestic的解决方案是Ignite——一款定制AI处理单元，作为服务器的计算核心。Prometheus服务器内置12颗Ignite芯片。

Ignite在单一芯片上集成了数据中心级ARM应用核心与RISC-V向量及张量核心，并共享同一内存空间。ARM核心充当片上主处理器，负责编排AI模型；RISC-V核心则执行实际的大语言模型处理任务。这种设计使单颗芯片能够处理大语言模型推理的多个环节，无需在不同处理器之间进行任务交接。目前，Majestic Labs尚未公布Prometheus具体的计算性能指标。

软件生态与兼容性

Rabii同样重视软件层面的工作，因为许多AI框架已深度固化于现有工作流程之中。他表示："我们致力于在客户采用过程中的每个环节减少摩擦，无论是硬件还是软件。"Prometheus将支持PyTorch、vLLM及OpenAI的Triton推理框架，且无需修改任何代码，这意味着兼容上述框架的现有模型可直接运行。

服务器规格与价格展望

在整机规格方面，Prometheus符合开放计算项目（Open Compute Project）标准。单个机架最多可容纳四台服务器，预计每机架总功耗约为120千瓦，并采用冷板液冷方案进行散热管理。服务器的内存设计采用模块化架构，这意味着初始配置内存低于128TB上限的服务器，日后可按需升级。

在定价策略上，尽管Prometheus的内存容量相当惊人，Majestic仍希望以有竞争力的价格切入市场。该公司认为，由于采用DRAM而非HBM，这一目标具有可行性。具体定价尚未公布，Prometheus预计将于2027年正式发货。

"根据不同工作负载，我们客户的资本支出将下降10至50倍，能耗也将同幅下降。"Rabii如此表示。

Q&A

Q1：Prometheus服务器为什么能配置这么大的内存？

A：Prometheus采用了专有的微型铜缆内存接口，有效传输距离可达一米，突破了传统内存接口只能在几毫米内工作的物理限制。同时配备自研内存聚合芯片，统一调度服务器内所有DRAM资源，从而实现最高128TB的超大内存配置，远超采用HBM方案的传统服务器。

Q2：Ignite芯片和英伟达GPU有什么区别？

A：Ignite是Majestic Labs自研的AI处理单元，将数据中心级ARM应用核心与RISC-V向量及张量核心集成在单颗芯片上，并共享统一内存空间。ARM核心负责模型调度，RISC-V核心负责实际的大语言模型推理计算，无需跨处理器传递数据。而英伟达GPU主要依赖HBM与独立主机CPU协同工作，架构逻辑有所不同。

Q3：Prometheus服务器支持哪些主流AI框架？

A：Prometheus支持PyTorch、vLLM以及OpenAI的Triton推理框架，且无需对现有代码进行任何修改。这意味着已基于上述框架开发的大语言模型可以直接在Prometheus上运行，大幅降低了用户的迁移成本和技术门槛。

来源：Spectrum

0赞

好文章，需要你的鼓励

Majestic Labs推出Prometheus服务器，突破AI大语言模型"内存瓶颈"

来源：Spectrum

2026

06/02

15:01

分享

点赞

Uber年度遗失物报告揭示：数千件物品遗留在无人驾驶出租车中

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

特斯拉在奥斯汀开始测试无方向盘无踏板Cybercab量产版

图灵奖得主Patterson：摩尔定律的真相，CPU、GPU、TPU的诞生与分工

Omdia报告：Dell PowerProtect助力企业三年期网络弹性TCO最高降低61%

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

WWDC 2026倒计时一周：官方壁纸、宣传视频与Apple Music播放列表全面上线

三星One UI 9更新：打开电源菜单将自动触发锁定模式

RTX Spark芯片：超越AI定位的Windows全能处理器

区块链与新兴技术如何重塑珠宝行业

Nvidia宣布Vera Rubin与Vera CPU按期推进，发布AI工厂操作系统DSX OS

软银押注法国850亿美元，电力成AI竞争核心要素

三位顶级风投眼中的AI投资热潮真相

水资源短缺成为SpaceX IPO招股书新增风险因素

32英寸三星M80F显示器创历史低价，折扣高达五折

苹果WWDC 2026主题"All Systems Glow"揭晓，直播链接正式上线

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: