Mindbeam发布开源AI推理框架，CPU推理性能最高提升96倍

初创公司Mindbeam AI发布开源AI推理框架Litespark-Inference，可让三值大语言模型在Apple、Intel、AMD及Arm等主流CPU上高效运行。基准测试显示，相比标准PyTorch实现，该框架吞吐量提升17至96倍，内存占用降低逾80%。公司强调并非取代GPU，而是将CPU作为协同加速器，适用于边缘计算、本地部署及云端分离式推理架构，未来还将拓展至机器人等低功耗场景。

成立仅两年的初创公司Mindbeam AI今日发布了一款开源人工智能推理框架，旨在让大语言模型在标准消费级处理器上更高效地运行。该公司表示，这一举措有望在特定AI工作负载场景下降低对昂贵图形处理器的依赖。

这款名为Litespark-Inference的软件库，能够让三值大语言模型在苹果、英特尔、AMD以及Arm的中央处理器上运行，相比传统基于CPU的推理方式，性能得到大幅提升。公司公布的基准测试数据显示，该框架相较于标准PyTorch实现方案，吞吐量提升幅度在17至96倍之间，同时将内存占用降低了80%以上。

Mindbeam旗下的Litespark大语言模型预训练框架主要服务于生成式AI应用的训练与推理加速，其技术核心聚焦于一类被称为三值模型的神经网络。这类模型将权重值限定为-1、0和+1三种，从而大幅降低推理过程中通常所需的大规模乘法运算开销，尽管这会带来一定的精度损失。

"我们从一个不同的角度来思考问题，"公司创始人兼首席执行官Nii Osae说道，"能否用三值位模型来完成推理任务？"

此次发布恰逢AI推理中Token使用成本持续攀升、各机构积极寻求降低模型部署成本之际，这一需求在内存受限的边缘计算场景中尤为突出。目前，绝大多数大语言模型推理依赖GPU，而GPU不仅价格昂贵，供应也十分紧张。Mindbeam认为，几乎存在于每一套AI系统中、与GPU并肩工作的CPU，是一种尚未被充分利用的资源。

"在推理流水线中，用户输入先到达CPU，再传递给GPU，"Osae说，"CPU只是在传递消息。为什么不能让CPU真正参与到推理栈中来呢？"

GPU的协同搭档

Mindbeam强调，其目标并非取代GPU，而是将CPU视为能够提升整体系统效率的协同加速器。"现在GPU可以处理更多Token，因为它们得到了CPU的额外协助，"Osae说。

该软件支持两种部署模式：一种允许AI开发者完全在本地硬件上运行语言模型，无需GPU；另一种面向云服务提供商，让CPU与GPU在解耦式推理架构中协同工作。

根据公司基准测试数据，运行该框架的苹果M5处理器每秒可处理近40个Token，而使用PyTorch框架时仅约为每秒2.3个Token。

在支持英特尔AVX-512向量神经网络指令集的系统上，吞吐量达到每秒近34个Token，据报道相较于未采用三值增强的基准配置提升了96倍。内存占用也从约4.6GB大幅降至不足800MB。

Mindbeam已将源代码发布至GitHub，并鼓励用户自行进行基准测试。

该框架充分利用了现代处理器中的专用单指令多数据指令集，包括Arm的NEON SDOT硬件加速指令集，以及英特尔和AMD的向量神经网络指令。这种处理器架构与编程技术允许单条CPU指令同时对多组数据执行相同操作。Mindbeam开发了自定义内核，能够自动检测可用的处理器特性并相应地优化执行过程。

Osae表示，首个版本支持苹果Silicon芯片、英特尔和AMD处理器，未来版本将瞄准云端专用硬件，例如亚马逊云科技的Inferentia芯片。

在未来规划上，公司计划将该技术拓展至语言模型以外的领域，重点面向对功耗敏感的机器人和边缘计算应用。"我们将机器人动作模型列为目标，因为机器人和边缘生态系统需要非常高效、低能耗的推理模型，"Osae说。

他还透露，Mindbeam计划于今年晚些时候将面向云端的商业化版本推向市场。

Q&A

Q1：Litespark-Inference框架的性能提升幅度有多大？

A：根据Mindbeam公布的基准测试数据，Litespark-Inference框架相较于标准PyTorch实现方案，吞吐量提升幅度在17至96倍之间。其中，苹果M5处理器可实现每秒近40个Token的处理速度，而英特尔AVX-512系统上则达到每秒近34个Token，较基准配置提升96倍。同时，内存占用从约4.6GB降至不足800MB，降幅超过80%。

Q2：Litespark-Inference框架采用的三值模型技术原理是什么？

A：三值模型是一类将神经网络权重值限定为-1、0和+1三种数值的神经网络。这种设计大幅减少了推理过程中通常所需的大规模乘法运算开销，从而降低内存占用并提升计算效率，代价是会带来一定程度的精度损失。Mindbeam正是基于这一技术，配合CPU的专用SIMD指令集，实现了大幅度的推理性能提升。

Q3：Litespark-Inference目前支持哪些处理器，未来还有哪些扩展计划？

A：目前，Litespark-Inference支持苹果Silicon芯片、英特尔及AMD处理器，并利用了Arm的NEON SDOT指令集和英特尔、AMD的向量神经网络指令。未来版本计划兼容亚马逊云科技的Inferentia等云端专用芯片，同时还将把技术延伸至机器人动作模型和边缘计算应用领域，并预计于今年晚些时候推出面向云端的商业化版本。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Mindbeam发布开源AI推理框架，CPU推理性能最高提升96倍

来源：SiliconANGLE

2026

06/16

23:12

分享

点赞

科学家研究证明：我们并非生活在模拟现实中

苹果与博通签署高达300亿美元芯片采购协议

零信任网络访问如何从根本上消除隐性信任

Crusoe扩展AI平台：推出无服务器微调与自助推理部署

Oratomic完成3亿美元融资，仅需2万个量子比特造出实用量子计算机

Anthropic将Claude Cowork智能体扩展至网页端与移动端

OpenAI发布延迟模型，美国AI监管混乱引发企业隐忧

微软押注企业AI需要工程师而非庞大销售团队

Anthropic揭开Claude AI黑箱：J-space技术带来模型内部可见性突破

英格兰银行获授权监管亚马逊、谷歌等科技巨头

酷睿Ultra战力Plus，英特尔携九大合作伙伴亮相Bilibili World 2026

iOS 26.5.2正式发布，包含逾20项安全修复，Claude协助发现漏洞

Salesforce 宣布以36亿美元收购客服自动化初创公司 Fin

Respond.io完成6250万美元B轮融资，借助AI智能体拓展全球市场

CarPlay新功能或成特斯拉接入支持的关键拼图

Adobe创意云全面更新：AI驱动的多工具升级

Sarvam完成2.34亿美元融资，跻身印度最新AI独角兽

Callyope：用AI语音分析为心理健康从业者提供支持

AI辅助Linux系统管理的七大实用场景

企业AI的隐性代价：员工每周耗费6.4小时"照看"AI机器人

iOS 27低电量模式全面升级，iPhone性能大幅提升

Nkenne：用AI守护非洲语言，从一次取消的巡演到语言基础设施平台

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: