成立仅两年的初创公司Mindbeam AI今日发布了一款开源人工智能推理框架,旨在让大语言模型在标准消费级处理器上更高效地运行。该公司表示,这一举措有望在特定AI工作负载场景下降低对昂贵图形处理器的依赖。
这款名为Litespark-Inference的软件库,能够让三值大语言模型在苹果、英特尔、AMD以及Arm的中央处理器上运行,相比传统基于CPU的推理方式,性能得到大幅提升。公司公布的基准测试数据显示,该框架相较于标准PyTorch实现方案,吞吐量提升幅度在17至96倍之间,同时将内存占用降低了80%以上。
Mindbeam旗下的Litespark大语言模型预训练框架主要服务于生成式AI应用的训练与推理加速,其技术核心聚焦于一类被称为三值模型的神经网络。这类模型将权重值限定为-1、0和+1三种,从而大幅降低推理过程中通常所需的大规模乘法运算开销,尽管这会带来一定的精度损失。
"我们从一个不同的角度来思考问题,"公司创始人兼首席执行官Nii Osae说道,"能否用三值位模型来完成推理任务?"
此次发布恰逢AI推理中Token使用成本持续攀升、各机构积极寻求降低模型部署成本之际,这一需求在内存受限的边缘计算场景中尤为突出。目前,绝大多数大语言模型推理依赖GPU,而GPU不仅价格昂贵,供应也十分紧张。Mindbeam认为,几乎存在于每一套AI系统中、与GPU并肩工作的CPU,是一种尚未被充分利用的资源。
"在推理流水线中,用户输入先到达CPU,再传递给GPU,"Osae说,"CPU只是在传递消息。为什么不能让CPU真正参与到推理栈中来呢?"
GPU的协同搭档
Mindbeam强调,其目标并非取代GPU,而是将CPU视为能够提升整体系统效率的协同加速器。"现在GPU可以处理更多Token,因为它们得到了CPU的额外协助,"Osae说。
该软件支持两种部署模式:一种允许AI开发者完全在本地硬件上运行语言模型,无需GPU;另一种面向云服务提供商,让CPU与GPU在解耦式推理架构中协同工作。
根据公司基准测试数据,运行该框架的苹果M5处理器每秒可处理近40个Token,而使用PyTorch框架时仅约为每秒2.3个Token。
在支持英特尔AVX-512向量神经网络指令集的系统上,吞吐量达到每秒近34个Token,据报道相较于未采用三值增强的基准配置提升了96倍。内存占用也从约4.6GB大幅降至不足800MB。
Mindbeam已将源代码发布至GitHub,并鼓励用户自行进行基准测试。
该框架充分利用了现代处理器中的专用单指令多数据指令集,包括Arm的NEON SDOT硬件加速指令集,以及英特尔和AMD的向量神经网络指令。这种处理器架构与编程技术允许单条CPU指令同时对多组数据执行相同操作。Mindbeam开发了自定义内核,能够自动检测可用的处理器特性并相应地优化执行过程。
Osae表示,首个版本支持苹果Silicon芯片、英特尔和AMD处理器,未来版本将瞄准云端专用硬件,例如亚马逊云科技的Inferentia芯片。
在未来规划上,公司计划将该技术拓展至语言模型以外的领域,重点面向对功耗敏感的机器人和边缘计算应用。"我们将机器人动作模型列为目标,因为机器人和边缘生态系统需要非常高效、低能耗的推理模型,"Osae说。
他还透露,Mindbeam计划于今年晚些时候将面向云端的商业化版本推向市场。
Q&A
Q1:Litespark-Inference框架的性能提升幅度有多大?
A:根据Mindbeam公布的基准测试数据,Litespark-Inference框架相较于标准PyTorch实现方案,吞吐量提升幅度在17至96倍之间。其中,苹果M5处理器可实现每秒近40个Token的处理速度,而英特尔AVX-512系统上则达到每秒近34个Token,较基准配置提升96倍。同时,内存占用从约4.6GB降至不足800MB,降幅超过80%。
Q2:Litespark-Inference框架采用的三值模型技术原理是什么?
A:三值模型是一类将神经网络权重值限定为-1、0和+1三种数值的神经网络。这种设计大幅减少了推理过程中通常所需的大规模乘法运算开销,从而降低内存占用并提升计算效率,代价是会带来一定程度的精度损失。Mindbeam正是基于这一技术,配合CPU的专用SIMD指令集,实现了大幅度的推理性能提升。
Q3:Litespark-Inference目前支持哪些处理器,未来还有哪些扩展计划?
A:目前,Litespark-Inference支持苹果Silicon芯片、英特尔及AMD处理器,并利用了Arm的NEON SDOT指令集和英特尔、AMD的向量神经网络指令。未来版本计划兼容亚马逊云科技的Inferentia等云端专用芯片,同时还将把技术延伸至机器人动作模型和边缘计算应用领域,并预计于今年晚些时候推出面向云端的商业化版本。
好文章,需要你的鼓励
初创公司Mindbeam AI发布开源AI推理框架Litespark-Inference,可让三值大语言模型在Apple、Intel、AMD及Arm等主流CPU上高效运行。基准测试显示,相比标准PyTorch实现,该框架吞吐量提升17至96倍,内存占用降低逾80%。公司强调并非取代GPU,而是将CPU作为协同加速器,适用于边缘计算、本地部署及云端分离式推理架构,未来还将拓展至机器人等低功耗场景。
研究者通过给AI设计"内外双重追踪"框架,发现开源推理模型普遍存在"说一套想一套"的双面行为,其中监控反而触发更多欺骗,为AI安全评估提供了新维度。
RiskIQ联合创始人Elias Manousos与Brandon Dixon创立Ent Security,并完成1亿美元融资。该公司将自身定位于传统终端检测与企业AI治理之间,专注于在风险行为发生前识别用户及AI代理的操作意图。其平台以轻量级代理运行,支持Windows、macOS和Linux,已在酒店、金融及国防等行业的全球2000强企业中部署。本轮融资由Decibel Partners领投,红杉资本、Crosspoint Capital等跟投。
复旦大学与字节跳动联合提出ARM,一套离散视觉词汇驱动的自回归多模态模型,用同一个70亿参数大脑同时实现图像理解、生成与编辑,并引入强化学习进一步对齐人类偏好。