来自加州理工学院的AI初创公司PrismML发布了一个1位大语言模型,该模型在性能上超越了更大规模的模型,有望提升AI在移动设备等应用场景中的效率和可行性。
这个名为Bonsai 8B的模型具有小巧快速的特点,功耗需求适中,基准测试性能可与更大规模的模型媲美。
"我们的第一个验证点是1位Bonsai 8B,这是一个1位模型,占用内存仅1.15GB,智能密度比全精度同类模型高出10倍以上,"该公司在社交媒体上表示。"在边缘硬件上,它比同等参数级别的其他模型小14倍、快8倍、节能5倍,同时保持竞争力。"
基于Transformer架构的AI模型涉及拥有数百万或数十亿权重的神经网络,这些权重控制神经元之间连接的强度并影响模型执行任务的方式。它们在训练过程中设置,占用的内存空间取决于表示它们的精度。
在GGUF FP16(16位)量化的模型比在GGUF Q8_0(8位)、GGUF Q4_0(4位)或GGUF Q2_K(2位)量化的模型占用更多空间。这还不包括可能增加实际存储空间需求的元数据和开销。但在相同基本架构下,16位模型通常比低级别量化的模型性能更好。
PrismML的Bonsai模型系列基于这样一种架构:"每个权重只用其符号{–1, +1}表示,而每组权重共享一个缩放因子",如该公司白皮书所解释的那样,而不是使用16位或32位浮点数。研究人员多年来一直在改进量化方法,相关论文如《BitNet:位正则化深度神经网络》(2017年)和《1位大语言模型时代:所有大语言模型都在1.58位》(2024年)中有所描述。
PrismML的方法基于加州理工学院电气工程教授Babak Hassibi及其同事的工作。该公司声称其1位架构避免了历史上伴随低位量化的权衡问题,特别是指令遵循能力差、多步推理错误和工具使用不可靠等问题。
"我们花费数年时间开发了在不损失推理能力的情况下压缩神经网络所需的数学理论,"PrismML首席执行官兼创始人Babak Hassibi在声明中表示。"我们将1位视为起点,而非终点。"
Hassibi认为,该公司的1位架构为AI建立了新的范式,专注于每单位计算和能耗的智能效率。
为了鼓励其他人沿着这一思路思考——还记得单位功耗性能成为热点的时候吗?——PrismML提出了智能密度的测量方法,这一指标让其模型表现突出。
"我们将智能密度定义为模型平均错误率(在同一基准测试套件中)对数的负值除以模型大小,"该公司解释道。
在智能密度评估中,Qwen3 8B在各项基准测试(MMLU Redux、MuSR、GSM8K等)中略微领先于Bonsai 8B,但智能密度得分仅为0.10/GB,远低于Bonsai 8B的1.06/GB。
指标可能对营销很重要,但PrismML模型更有意义的衡量标准是它们将AI从云数据中心中移出的潜力。该公司预见其模型将为设备端智能体、实时机器人技术、安全企业系统以及其他受内存带宽、功耗或合规约束影响部署的项目提供动力。
"1位Bonsai 8B可通过MLX在苹果设备(Mac、iPhone、iPad)上原生运行,通过llama.cpp CUDA在英伟达GPU上运行,"该公司表示。"模型权重在Apache 2.0许可证下提供。"
该公司还提供两个较小的模型:1位Bonsai 4B和1位Bonsai 1.7B。
Q&A
Q1:Bonsai 8B模型有什么特别之处?
A:Bonsai 8B是PrismML开发的1位大语言模型,占用内存仅1.15GB,智能密度比全精度模型高10倍以上。在边缘硬件上比同参数级别模型小14倍、快8倍、节能5倍,同时保持竞争性能表现。
Q2:1位量化技术与传统量化有什么区别?
A:传统量化使用16位或32位浮点数表示权重,而PrismML的1位架构中每个权重只用符号{–1, +1}表示,每组权重共享一个缩放因子。这种方法避免了历史上低位量化带来的指令遵循能力差、推理错误等问题。
Q3:Bonsai模型适用于哪些应用场景?
A:Bonsai模型主要面向需要将AI从云端部署到本地的场景,包括设备端智能体、实时机器人技术、安全企业系统等。特别适合受内存带宽、功耗或合规约束限制的项目,可在苹果设备和英伟达GPU上原生运行。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。