谷歌再次更新了"Android Bench"评测榜单,这份榜单专门针对 Android 应用开发场景,对最优秀的 AI 模型进行综合排名。本次更新新增了多个"开放权重"模型,同时提供了更详细的 Token 使用量及模型调用成本数据。
代码生成是大语言模型已经相当擅长的领域之一,其辅助开发应用程序和软件项目的能力,也催生了"氛围编程"(Vibe Coding)这一新兴趋势。今年早些时候,谷歌发布了一份新的基准测试排名,综合考量了常见 Android 开发任务的完成情况以及模型对最佳实践的遵循程度,展示了在 Android 应用开发场景下表现最出色的 AI 模型。
"Android Bench"首次发布时,Gemini 3.1 Pro 位居榜首,此后 OpenAI 的 GPT 5.4 与其并列第一。
在 2026 年 5 月 18 日的最新更新中,榜单迎来了新的王者。根据谷歌公布的数据,GPT 5.5 目前已成为 Android 应用开发领域最强的 AI 模型,以接近 2% 的优势超越了 GPT 5.4 和 Gemini 3.1 Pro。
此次更新还带来了更为完整的横向对比视角——谷歌新增展示了每个模型的平均响应延迟、总 Token 消耗量以及平均使用成本,并在相关文档中详细说明了各项指标的计算方式。
值得注意的是,尽管 GPT 5.5 的性能略胜一筹,但其完成相同任务的成本却是 Gemini 3.1 Pro 的两倍以上。
以下为谷歌截至 2026 年 5 月 21 日公布的综合新数据后的前十名模型排行:
在开放权重模型方面,本次新增了 Gemma、Qwen、DeepSeek、MiMo 等多个模型。其中,GLM 5.1 得分最高,其次是 Kimi K2.6。
完整排名可在谷歌官网查看。
谷歌大约每月更新一次"Android Bench"榜单。随着 Gemini 3.5 Pro 即将发布、Gemini 3.5 Flash 已正式上线,谷歌自家模型能否重新夺回被 OpenAI 抢占的领先地位,值得持续关注。
Q&A
Q1:谷歌 Android Bench 基准测试是什么?主要评测哪些内容?
A:Android Bench 是谷歌专为 Android 应用开发场景设计的 AI 模型评测榜单,大约每月更新一次。它综合考察模型在常见 Android 开发任务中的表现,以及模型对开发最佳实践的遵循程度。最新版本还新增了平均响应延迟、Token 使用量和平均调用成本等维度,帮助开发者更全面地评估不同模型的实际使用价值。
Q2:GPT 5.5 和 Gemini 3.1 Pro 在 Android 开发上有什么区别?
A:根据谷歌 2026 年 5 月 18 日的最新数据,GPT 5.5 的综合评分比 Gemini 3.1 Pro 高出约 2%,位居榜首。但在成本方面,GPT 5.5 完成相同任务的费用是 Gemini 3.1 Pro 的两倍以上。因此,开发者在选择模型时需要在性能与成本之间做出权衡。
Q3:Android Bench 榜单中表现最好的开放权重模型有哪些?
A:在本次更新新增的开放权重模型中,GLM 5.1 得分最高,其次是 Kimi K2.6。此次榜单还新增了 Gemma、Qwen、DeepSeek、MiMo 等多个开放权重模型,为开发者提供了更多性价比选择。
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。