生成式AI的爆发式增长将内存成本推向了历史高位,谷歌作为这一趋势的重要推手,也开始着手推出对内存需求更为友好的本地AI模型。近日,谷歌宣布发布全新Gemma 4模型,填补了今年早些时候发布的产品线中的空白。这款新模型效率极高,普通消费级笔记本电脑即可流畅运行。
今年4月,谷歌发布了Gemma 4系列的四款模型,同时宣布转向更为开放的Apache 2.0授权协议。最初发布的模型包括两款面向移动端优化的版本(E2B和E4B),以及两款面向高强度工作需求的模型(26B混合专家模型和31B密集模型)。然而,这四款产品之间存在一段较大的能力空白,而此次发布的新模型正好填补了这一空缺。
Gemma 4 12B的能力远超移动版本,同时也无需价值两万美元的AI加速卡即可在本地运行。谷歌表示,Gemma 4 12B的独特之处在于,它可以在众多消费级笔记本电脑上运行,同时不会牺牲模型质量。只要设备具备16GB系统内存或显存,这款拥有120亿参数的模型便可正常使用。其总体内存占用约为Gemma 4 26B混合专家模型的一半,谷歌声称新模型在基准测试方面的表现几乎与后者不相上下。
谷歌表示,新模型具备复杂的多步推理能力以及智能体工作流处理能力,而这些此前只有更大体量的Gemma版本才能实现。尽管参数量更少,Gemma 4 12B仍搭载了最新设计的多Token预测(MTP)草稿器,该技术能够利用空闲的处理周期来预测未来可能生成的Token,从而显著提升运行速度与效率。谷歌此前已为其他Gemma 4模型推出了可选的MTP版本,而Gemma 4 12B是首款将MTP作为默认配置开箱即用的模型。
在多模态处理方面,Gemma 4 12B也采用了全新方案,进一步提升了效率。Gemma 4系列原生支持多模态输入,可接受文本、音频和图像。大多数生成式AI模型(包括其他Gemma 4版本)通常使用专用编码器处理非文本输入,再将数据传递给大语言模型,这种方式虽然有效,但会增加延迟并占用更多内存。
在这款中等体量的新模型中,谷歌为视觉处理实现了一套精简的嵌入模块,采用单矩阵乘法与位置嵌入技术,使数据在保留空间感知信息的前提下直接传递至大语言模型,从而省去了臃肿的中间编码器。而在音频处理方面,则完全取消了编码环节——开发团队找到了一种方法,可将原始音频信号直接投影为与文本Token相同的向量表示。
如果你想体验全新的Gemma 4模型,可以通过LM Studio、Google AI Edge Gallery等工具在线直接访问,无需本地下载。不过,Gemma 4 12B的核心亮点在于支持完全本地、自主运行。只要内存满足要求,模型权重现已可在Kaggle和Hugging Face上立即下载,文件大小约为18GB。
Q&A
Q1:Gemma 4 12B需要多少内存才能运行?
A:谷歌官方表示,Gemma 4 12B只需设备具备16GB系统内存或显存即可正常运行,无需昂贵的专用AI加速硬件。模型权重文件大小约为18GB,可在Kaggle和Hugging Face平台上免费下载,适合大多数主流消费级笔记本电脑使用。
Q2:Gemma 4 12B的多Token预测(MTP)功能有什么作用?
A:多Token预测(MTP)是Gemma 4 12B内置的一项新技术,能够利用模型运行过程中的空闲处理周期,预先计算未来可能生成的Token。这一机制能够显著提升模型的生成速度与整体运行效率。值得注意的是,Gemma 4 12B是Gemma 4系列中首款将MTP作为默认功能直接内置的模型,其他版本仅提供可选安装。
Q3:Gemma 4 12B如何处理图像和音频输入?
A:Gemma 4 12B在多模态处理上进行了创新优化。视觉方面,采用单矩阵乘法与位置嵌入的精简嵌入模块,数据可直接传递给大语言模型,无需额外的中间编码器;音频方面则更为彻底,完全省去编码过程,直接将原始音频信号投影为与文本Token相同的向量,从而降低延迟并减少内存消耗。
好文章,需要你的鼓励
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
本文提出一种评估人工智能风险的新方法,借鉴生态学与演化论视角,从理论生态模型中推导出三项风险指标,涵盖种群模型与生态系统模型。研究旨在为AI治理策略提供量化工具,并对分析局限性及政策改进方向进行了深入探讨,为构建更科学的AI风险评估体系提供参考框架。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。