Gemini 3.5 Flash登上安卓编程榜单，但成本高出3倍且性能更慢

谷歌更新了Android Bench基准测试榜单，新增了Gemini 3.5 Flash的评测数据。结果显示，该模型在Android开发场景中表现欠佳，仅排名第六，不仅落后于GPT 5.5和Gemini 3.1 Pro Preview，性能差距达9%，延迟更高，且每次基准测试平均花费147.1美元，token用量是Gemini 3.1 Pro Preview的约3倍。尽管Gemini 3.5 Flash在其他AI任务中表现优异，但Android编码显然并非其强项。

谷歌近期发布了新一期基准测试结果，对各主流AI模型在安卓编程领域的表现进行了横向对比，并公布了每个模型的Token使用成本。测试结果显示，谷歌自家的Gemini 3.5 Flash在安卓开发中资源消耗最为突出，甚至未能跻身前五名。

随着通用聊天机器人的热度逐渐降温，谷歌、OpenAI、Anthropic等公司纷纷将重心转向具备编程能力的智能体模型。用户也开始依赖这类模型进行"氛围编程"——即将大部分软件开发工作交由大语言模型来完成。

近几个月来，各模型在安卓编程方面的能力均有显著提升，谷歌也持续追踪并记录各模型的表现。"Android Bench"基准测试会随谷歌新模型的发布而更新，例如此次纳入了最新的Gemini 3.5 Flash，并将其与竞品进行对比。

该测试的核心评估方式是：每个模型在10次运行中成功解决安卓编程问题的百分比，满分为100分。谷歌还列出了预期表现及最近一次测试日期，部分高分模型的数据甚至可追溯至今年2月。

在最新一期的Android Bench排名中，结果令人意外。Gemini 3.5 Flash仅排名第六，落后于GPT 5.5以及早在今年2月就完成测试的Gemini 3.1 Pro Preview。

Gemini 3.5 Flash此前被定位为比Gemini 3.1 Pro更廉价、更快速的替代方案，官方预期性能差距为6.1%。然而最新基准测试结果却给出了不同的结论：在安卓开发场景下，Gemini 3.5 Flash不仅延迟更高，任务成功率也低了9个百分点。

更关键的是成本对比——谷歌这款最新模型在单次基准测试中平均消耗355.9个Token，花费约147.1美元；而Gemini 3.1 Pro Preview仅消耗73.3个Token，费用约为前者的三分之一。

当然，需要指出的是，谷歌目前在榜单上列出的仍是Gemini 3.1 Pro的预览版本。但即便如此，这款预览版模型的得分依然高于一款被官方宣传为"更快、更高效"的正式版模型，这一结果颇为耐人寻味。

GPT 5.5在单次运行成本上与Gemini 3.5 Flash相近，但后者在Android Bench测试中的Token消耗量是前者的5.5倍。Anthropic的上一代模型Claude Opus 4.7排名第四，运行成本和Token用量略低，处于中游水平。目前谷歌尚未公布Opus 4.8或Fable 5的基准测试得分。

以下是谷歌在最新一期Android Bench中公布的前十名模型排名：

榜单中既有多款开放权重模型，也包含Claude、GPT等知名闭源模型。与上一期相比，榜单前段的排名基本保持不变，唯一的调整是GPT 5.3 Codex已从名单中移除。

完整排名可在谷歌官方网站上查阅。

谷歌会随着更多模型完成测试而定期更新该榜单。从整体来看，这份榜单是衡量各模型在安卓开发领域表现的可靠参考。Gemini 3.5 Flash在其他大语言模型及智能体任务中确实表现出色，尽管谷歌对其成本和使用上限有所调整，但其在安卓编程方面的短板同样不容忽视。

Q&A

Q1：Android Bench是什么？谷歌用它来评估什么？

A：Android Bench是谷歌发布的一项基准测试，专门用于评估各主流AI模型在安卓编程领域的表现。每个模型会经历10次运行，以成功解决安卓编程问题的百分比作为得分，满分为100分。谷歌会随新模型发布持续更新榜单，同时公布每个模型的Token使用量及对应成本，帮助开发者选择最适合安卓开发场景的AI模型。

Q2：Gemini 3.5 Flash在Android Bench中表现如何？

A：Gemini 3.5 Flash在最新一期Android Bench中仅排名第六，不仅未能进入前五，还落后于更早测试的Gemini 3.1 Pro Preview。其单次基准测试平均消耗355.9个Token，花费约147.1美元，是Gemini 3.1 Pro Preview成本的约3倍，同时任务成功率还低了9个百分点，延迟也更高，在安卓编程场景中性价比表现欠佳。

Q3：目前Android Bench排名靠前的AI模型有哪些？

A：根据谷歌最新公布的Android Bench榜单，排名靠前的模型包括GPT 5.5、Gemini 3.1 Pro Preview等闭源模型，以及多款开放权重模型。Claude Opus 4.7排名第四，Token消耗和运行成本处于中游水平。与上一期相比，榜单前段排名基本稳定，主要变化是GPT 5.3 Codex已从榜单中移除。

来源：Electrek

0赞

好文章，需要你的鼓励

Gemini 3.5 Flash登上安卓编程榜单，但成本高出3倍且性能更慢

来源：Electrek

2026

06/15

15:39

分享

点赞

英国机器人公司Humanoid推出强化学习系统，机器人操控可靠性提升至99.9%

Waabi AI驾驶系统无需重新训练即可迁移至沃尔沃自动驾驶卡车

Apptronik携手谷歌DeepMind开设机器人训练园区，加速人形机器人商用部署

一个自我进化的开源代码模型突然火了，单张显卡实测效果真不错

比亚迪旗舰电动轿车海豹08上市30小时锁单超6.5万辆

特斯拉司机高速公路上熟睡，驾驶员监控系统为何失效？

AI助手争夺战：苹果能成为最终赢家吗？

NHS App将引入AI分诊工具，助力缩短患者等待时间

Station F加速器助力欧洲AI创业公司崛起

橡树岭国家实验室与克利夫兰诊所联合模拟聚变反应堆材料化学

Even Realities完成1.5亿美元融资，估值达10亿美元

数据中心会造成空气污染吗？关键在于电力来源

iOS 27 对 Liquid Glass 的修复远不止一个滑块那么简单

实时感知与FPGA技术的未来：机器人领域网络研讨会即将举行

贝索斯新创公司Prometheus究竟要做什么？

Firefox AI关闭开关：Mozilla如何在AI时代尊重用户选择

让Siri"看见"你的世界：Vision Pro的AI视觉功能体验

Mistral AI寻求35亿美元融资，全力布局物理AI赛道

Icon Composer 2与SF Symbols 8测试版现已开放下载

免费网络研讨会：使用Claude Code迁移至OpenCV 5的实践经验分享

如何在Gemini与其他聊天机器人之间迁移记忆数据

iOS 27将Siri摄像头模式整合进相机应用，大幅优化Camera Control体验

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: