Microsoft 的研究人员称他们已经开发出了迄今为止最大的 1-bit AI 模型,也被称为 “bitnet”。该模型名为 BitNet b1.58 2B4T,在 MIT 许可证下公开发布,并且可以在包括 Apple M2 在内的 CPU 上运行。
Bitnets 本质上是为轻量级硬件设计的压缩模型。在标准模型中,定义模型内部结构的数值即权重,通常经过量化处理,以便模型在各种设备上均能良好运行。对权重进行量化减少了表示这些权重所需的比特数 —— 比特是计算机能处理的最小单位 —— 这使得模型可以在内存较少、运行速度更快的芯片上运行。
Bitnets 将权重量化为仅三个值:-1、0 和 1。理论上,这使它们在内存和计算效率上远超当今大多数模型。
Microsoft 的研究人员表示,BitNet b1.58 2B4T 是首个拥有 20 亿参数的 bitnet(“参数”在这里基本上与“权重”同义)。据称,该模型在一个包含 4 万亿 Token 的数据集上训练 —— 一项估计相当于约 3300 万本书 —— 使其在性能上优于同类规模的传统模型。
需要明确的是,BitNet b1.58 2B4T 并未彻底超越所有竞品的 20 亿参数模型,但它似乎能够与之抗衡。根据研究人员的测试结果,该模型在 GSM8K(一组小学水平的数学问题)和 PIQA(测试物理常识推理能力)等基准测试中,表现均超过了 Meta 的 Llama 3.2 1B、Google 的 Gemma 3 1B 和 Alibaba 的 Qwen 2.5 1.5B。
更为引人注目的是,BitNet b1.58 2B4T 的运行速度比同等规模的其他模型更快 —— 在某些情况下,其速度是对方的两倍,而所需内存却只有极小的一部分。
然而,这也有一个前提条件。
实现这种性能需要使用 Microsoft 自研的框架 bitnet.cpp,而该框架目前仅支持某些特定硬件。支持芯片列表中并未包括统治 AI 基础设施格局的 GPU。
总的来说,bitnets 可能存在希望,尤其适用于资源受限的设备。但兼容性问题 —— 并且很可能将继续成为一个主要障碍。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。