谷歌LLC旗下的DeepMind人工智能实验室发布了迄今为止最小的模型之一——Gemma 3 270M,该模型仅包含2.7亿个参数。
这意味着它比大多数强大的前沿大语言模型要小得多,后者通常拥有数十亿个参数或控制其行为的内部设置。模型中的参数数量通常描述了其强大程度,但谷歌在开发Gemma 3 270M时选择了更加精简的方案,目的是让它能够直接在智能手机等低功耗设备上无需互联网连接即可运行。尽管如此,谷歌表示Gemma 3 270M仍然能够处理一系列复杂的特定领域任务,因为开发者可以快速对其进行微调以满足需求。
谷歌DeepMind员工AI开发者关系工程师Omar Sanseviero在X平台的帖子中表示,Gemma 3 270M是开源的,小到可以在"烤面包机"中运行,或者在掌上大小的树莓派计算机等设备上运行。
在宣布Gemma 3 270M的博客文章中,谷歌DeepMind团队解释说,该模型结合了1.7亿个"嵌入参数"和1亿个"Transformer块参数"。它还能够处理非常特定和罕见的Token,使其成为可以在特定任务和语言上进行微调的"强大基础模型"。
公司补充说,Gemma 3 270M的架构适合在指令遵循任务中实现"强劲性能",同时足够小,可以快速微调并部署在功耗有限的设备上。其架构基于更大的Gemma 3模型,旨在单个图形处理器上运行,并提供各种微调方案、文档和部署指南,适用于包括Hugging Face、JAX和UnSlot在内的开发者工具,帮助用户快速开始为该模型构建应用程序。
Gemma 3 270M的基准测试结果看起来相当令人印象深刻。在旨在测量AI模型正确遵循指令能力的IFEval基准测试中,该模型的指令调优版本获得了51.2%的分数。这大幅超越了类似大小的小型模型,如Qwen 2.5 0.5B Instruct和SmolLM2 135M Instruct的分数。谷歌指出,它也不远落后于一些较小的十亿参数模型。
话虽如此,Gemma 3 270M可能不是同类中最好的。谷歌的竞争对手之一,名为Liquid AI Inc.的初创公司回应称,该公司忽略了其上月推出的LFM2-350M模型,该模型在相同基准测试中获得了65.12%的分数,尽管只多了几个参数。
尽管如此,谷歌强调Gemma 3 270M的重点是能效,指出使用Pixel 9 Pro智能手机上INT4量化版本模型的内部测试。它表示在25次对话中,该模型仅使用了Pixel电池电量的0.75%。
因此,谷歌表示Gemma 3 270M是寻求部署设备端AI的开发者的绝佳选择,这对于需要隐私保护和离线功能的应用程序通常是首选。
谷歌强调,AI开发者需要为工作选择合适的工具,而不是简单地专注于模型大小来提高AI应用程序的性能。对于创意写作、合规检查、实体提取、查询路由、情感分析和结构化文本生成等工作负载,它认为Gemma 3 270M可以进行微调,以比数十亿参数大语言模型更高的成本效率有效完成工作。
在YouTube上发布的演示视频中,谷歌展示了一位开发者如何构建由Gemma 3 270M驱动的睡前故事生成器应用。它能够在网络浏览器中离线运行,并根据家长的提示为孩子创作原创故事。
该视频展示了Gemma 3 270M同时合成多个输入的能力,因此用户可以指定主角(如魔法猫)、设定(如魔法森林)、故事主题、情节转折(如角色发现一个神秘盒子,里面有东西)以及故事长度。一旦用户设置了这些参数,Gemma 3 270M就会快速根据用户输入生成连贯的原创故事。
这是设备端AI快速发展的绝佳例子,为甚至不需要互联网连接的新型应用程序创造了可能性。
谷歌表示,Gemma 3 270M可以在Hugging Face、Docker、Kaggle、Ollama和LM Studio上找到,提供预训练和指令调优版本供下载。
Q&A
Q1:Gemma 3 270M有什么特别之处?
A:Gemma 3 270M是谷歌DeepMind发布的超小型AI模型,仅有2.7亿参数,但能在智能手机等低功耗设备上离线运行。它结合了1.7亿个嵌入参数和1亿个Transformer块参数,虽然体积小但仍能处理复杂的特定领域任务。
Q2:Gemma 3 270M的性能表现如何?
A:在IFEval基准测试中,Gemma 3 270M获得了51.2%的分数,大幅超越同等大小的其他小型模型。在Pixel 9 Pro手机上的测试显示,25次对话仅消耗0.75%的电池电量,展现出优异的能效表现。
Q3:开发者如何使用Gemma 3 270M?
A:开发者可以在Hugging Face、Docker、Kaggle等平台获取该模型,支持快速微调以适应创意写作、情感分析、实体提取等特定任务。谷歌还提供了完整的文档、部署指南和各种开发工具支持。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。