谷歌再次更新了"Android Bench"评测榜单,这份榜单专门针对 Android 应用开发场景,对最优秀的 AI 模型进行综合排名。本次更新新增了多个"开放权重"模型,同时提供了更详细的 Token 使用量及模型调用成本数据。
代码生成是大语言模型已经相当擅长的领域之一,其辅助开发应用程序和软件项目的能力,也催生了"氛围编程"(Vibe Coding)这一新兴趋势。今年早些时候,谷歌发布了一份新的基准测试排名,综合考量了常见 Android 开发任务的完成情况以及模型对最佳实践的遵循程度,展示了在 Android 应用开发场景下表现最出色的 AI 模型。
"Android Bench"首次发布时,Gemini 3.1 Pro 位居榜首,此后 OpenAI 的 GPT 5.4 与其并列第一。
在 2026 年 5 月 18 日的最新更新中,榜单迎来了新的王者。根据谷歌公布的数据,GPT 5.5 目前已成为 Android 应用开发领域最强的 AI 模型,以接近 2% 的优势超越了 GPT 5.4 和 Gemini 3.1 Pro。
此次更新还带来了更为完整的横向对比视角——谷歌新增展示了每个模型的平均响应延迟、总 Token 消耗量以及平均使用成本,并在相关文档中详细说明了各项指标的计算方式。
值得注意的是,尽管 GPT 5.5 的性能略胜一筹,但其完成相同任务的成本却是 Gemini 3.1 Pro 的两倍以上。
以下为谷歌截至 2026 年 5 月 21 日公布的综合新数据后的前十名模型排行:
在开放权重模型方面,本次新增了 Gemma、Qwen、DeepSeek、MiMo 等多个模型。其中,GLM 5.1 得分最高,其次是 Kimi K2.6。
完整排名可在谷歌官网查看。
谷歌大约每月更新一次"Android Bench"榜单。随着 Gemini 3.5 Pro 即将发布、Gemini 3.5 Flash 已正式上线,谷歌自家模型能否重新夺回被 OpenAI 抢占的领先地位,值得持续关注。
Q&A
Q1:谷歌 Android Bench 基准测试是什么?主要评测哪些内容?
A:Android Bench 是谷歌专为 Android 应用开发场景设计的 AI 模型评测榜单,大约每月更新一次。它综合考察模型在常见 Android 开发任务中的表现,以及模型对开发最佳实践的遵循程度。最新版本还新增了平均响应延迟、Token 使用量和平均调用成本等维度,帮助开发者更全面地评估不同模型的实际使用价值。
Q2:GPT 5.5 和 Gemini 3.1 Pro 在 Android 开发上有什么区别?
A:根据谷歌 2026 年 5 月 18 日的最新数据,GPT 5.5 的综合评分比 Gemini 3.1 Pro 高出约 2%,位居榜首。但在成本方面,GPT 5.5 完成相同任务的费用是 Gemini 3.1 Pro 的两倍以上。因此,开发者在选择模型时需要在性能与成本之间做出权衡。
Q3:Android Bench 榜单中表现最好的开放权重模型有哪些?
A:在本次更新新增的开放权重模型中,GLM 5.1 得分最高,其次是 Kimi K2.6。此次榜单还新增了 Gemma、Qwen、DeepSeek、MiMo 等多个开放权重模型,为开发者提供了更多性价比选择。
好文章,需要你的鼓励
谷歌每月发布"Google系统更新说明",涵盖Play服务、Play商店及Play系统更新的最新变化,适用于Android手机、平板、Wear OS、Google/Android TV、Auto及PC等平台。本次5月更新涉及账户管理、开发者服务、设备连接、安全与隐私、钱包及实用工具等多个模块,部分功能面向终端用户,部分面向开发者。需注意,更新日志中出现的功能并不代表已全面上线,部分功能可能仍处于实验阶段。
宾夕法尼亚大学研究发现,针对神经网络不同类型参数的内在对称性设计专属优化器,比用同一个Adam算法优化所有参数,能稳定提升大语言模型预训练的最终性能。
欧盟委员会计划依据《数字市场法》(DMA)对谷歌开出史上最高罚款,金额或达九位数。欧盟监管机构认为,谷歌在搜索结果中优先展示自家服务(如谷歌购物),对第三方竞争网站构成不公平竞争。此前谷歌提出的整改方案被认为力度不足。此外,欧盟还在对谷歌Play商店及搜索引擎AI功能展开独立调查,审查其是否妨碍市场公平竞争。
研究发现顶尖AI在医学画钟测试评分中存在系统性"打分保守"问题,总爱把极端分数往中间靠,可能导致严重认知障碍患者被漏检。