PrismML发布超低功耗1位大语言模型，力图将AI从云端解放

加州理工学院AI初创公司PrismML发布了1位大语言模型Bonsai 8B，该模型仅需1.15GB内存，在边缘硬件上比同类模型小14倍、快8倍、节能5倍。该1位架构将神经网络权重简化为±1表示，避免了传统低位量化的性能损失问题。公司提出"智能密度"新指标，Bonsai 8B达到1.06/GB，远超其他模型。该技术有望推动AI从云数据中心转向移动设备、机器人等边缘应用场景。

来自加州理工学院的AI初创公司PrismML发布了一个1位大语言模型，该模型在性能上超越了更大规模的模型，有望提升AI在移动设备等应用场景中的效率和可行性。

这个名为Bonsai 8B的模型具有小巧快速的特点，功耗需求适中，基准测试性能可与更大规模的模型媲美。

"我们的第一个验证点是1位Bonsai 8B，这是一个1位模型，占用内存仅1.15GB，智能密度比全精度同类模型高出10倍以上，"该公司在社交媒体上表示。"在边缘硬件上，它比同等参数级别的其他模型小14倍、快8倍、节能5倍，同时保持竞争力。"

基于Transformer架构的AI模型涉及拥有数百万或数十亿权重的神经网络，这些权重控制神经元之间连接的强度并影响模型执行任务的方式。它们在训练过程中设置，占用的内存空间取决于表示它们的精度。

在GGUF FP16（16位）量化的模型比在GGUF Q8_0（8位）、GGUF Q4_0（4位）或GGUF Q2_K（2位）量化的模型占用更多空间。这还不包括可能增加实际存储空间需求的元数据和开销。但在相同基本架构下，16位模型通常比低级别量化的模型性能更好。

PrismML的Bonsai模型系列基于这样一种架构："每个权重只用其符号{–1, +1}表示，而每组权重共享一个缩放因子"，如该公司白皮书所解释的那样，而不是使用16位或32位浮点数。研究人员多年来一直在改进量化方法，相关论文如《BitNet：位正则化深度神经网络》（2017年）和《1位大语言模型时代：所有大语言模型都在1.58位》（2024年）中有所描述。

PrismML的方法基于加州理工学院电气工程教授Babak Hassibi及其同事的工作。该公司声称其1位架构避免了历史上伴随低位量化的权衡问题，特别是指令遵循能力差、多步推理错误和工具使用不可靠等问题。

"我们花费数年时间开发了在不损失推理能力的情况下压缩神经网络所需的数学理论，"PrismML首席执行官兼创始人Babak Hassibi在声明中表示。"我们将1位视为起点，而非终点。"

Hassibi认为，该公司的1位架构为AI建立了新的范式，专注于每单位计算和能耗的智能效率。

为了鼓励其他人沿着这一思路思考——还记得单位功耗性能成为热点的时候吗？——PrismML提出了智能密度的测量方法，这一指标让其模型表现突出。

"我们将智能密度定义为模型平均错误率（在同一基准测试套件中）对数的负值除以模型大小，"该公司解释道。

在智能密度评估中，Qwen3 8B在各项基准测试（MMLU Redux、MuSR、GSM8K等）中略微领先于Bonsai 8B，但智能密度得分仅为0.10/GB，远低于Bonsai 8B的1.06/GB。

指标可能对营销很重要，但PrismML模型更有意义的衡量标准是它们将AI从云数据中心中移出的潜力。该公司预见其模型将为设备端智能体、实时机器人技术、安全企业系统以及其他受内存带宽、功耗或合规约束影响部署的项目提供动力。

"1位Bonsai 8B可通过MLX在苹果设备（Mac、iPhone、iPad）上原生运行，通过llama.cpp CUDA在英伟达GPU上运行，"该公司表示。"模型权重在Apache 2.0许可证下提供。"

该公司还提供两个较小的模型：1位Bonsai 4B和1位Bonsai 1.7B。

Q&A

Q1：Bonsai 8B模型有什么特别之处？

A：Bonsai 8B是PrismML开发的1位大语言模型，占用内存仅1.15GB，智能密度比全精度模型高10倍以上。在边缘硬件上比同参数级别模型小14倍、快8倍、节能5倍，同时保持竞争性能表现。

Q2：1位量化技术与传统量化有什么区别？

A：传统量化使用16位或32位浮点数表示权重，而PrismML的1位架构中每个权重只用符号{–1, +1}表示，每组权重共享一个缩放因子。这种方法避免了历史上低位量化带来的指令遵循能力差、推理错误等问题。

Q3：Bonsai模型适用于哪些应用场景？

A：Bonsai模型主要面向需要将AI从云端部署到本地的场景，包括设备端智能体、实时机器人技术、安全企业系统等。特别适合受内存带宽、功耗或合规约束限制的项目，可在苹果设备和英伟达GPU上原生运行。

来源：The Register

0赞

好文章，需要你的鼓励

PrismML发布超低功耗1位大语言模型，力图将AI从云端解放

来源：The Register

2026

04/07

14:05

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

Cloudflare发布EmDash：用AI重构的WordPress替代方案

Netflix、Meta和IBM专家：AI让任何人成为10倍程序员，但需要10倍的清理工作

Anthropic要求Claude Code订阅用户为OpenClaw使用付费

灵活性与智能体大使如何保障AI驱动的企业安全

彼得·蒂尔押注太阳能牛项圈背后的商业逻辑

国家机器人周：最新物理AI研究、突破和资源盘点

AI智能体承诺"运营企业"，但出错时谁来承担责任？

日本机器人不是来抢夺工作的，而是填补无人愿做的岗位

轨道数据中心能否支撑SpaceX万亿美元估值

微软 Copilot 服务条款：仅供娱乐使用

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: