Gemini 3.5 Flash登上安卓编程榜单,但成本高出3倍且性能更慢

谷歌更新了Android Bench基准测试榜单,新增了Gemini 3.5 Flash的评测数据。结果显示,该模型在Android开发场景中表现欠佳,仅排名第六,不仅落后于GPT 5.5和Gemini 3.1 Pro Preview,性能差距达9%,延迟更高,且每次基准测试平均花费147.1美元,token用量是Gemini 3.1 Pro Preview的约3倍。尽管Gemini 3.5 Flash在其他AI任务中表现优异,但Android编码显然并非其强项。

谷歌近期发布了新一期基准测试结果,对各主流AI模型在安卓编程领域的表现进行了横向对比,并公布了每个模型的Token使用成本。测试结果显示,谷歌自家的Gemini 3.5 Flash在安卓开发中资源消耗最为突出,甚至未能跻身前五名。

随着通用聊天机器人的热度逐渐降温,谷歌、OpenAI、Anthropic等公司纷纷将重心转向具备编程能力的智能体模型。用户也开始依赖这类模型进行"氛围编程"——即将大部分软件开发工作交由大语言模型来完成。

近几个月来,各模型在安卓编程方面的能力均有显著提升,谷歌也持续追踪并记录各模型的表现。"Android Bench"基准测试会随谷歌新模型的发布而更新,例如此次纳入了最新的Gemini 3.5 Flash,并将其与竞品进行对比。

该测试的核心评估方式是:每个模型在10次运行中成功解决安卓编程问题的百分比,满分为100分。谷歌还列出了预期表现及最近一次测试日期,部分高分模型的数据甚至可追溯至今年2月。

在最新一期的Android Bench排名中,结果令人意外。Gemini 3.5 Flash仅排名第六,落后于GPT 5.5以及早在今年2月就完成测试的Gemini 3.1 Pro Preview。

Gemini 3.5 Flash此前被定位为比Gemini 3.1 Pro更廉价、更快速的替代方案,官方预期性能差距为6.1%。然而最新基准测试结果却给出了不同的结论:在安卓开发场景下,Gemini 3.5 Flash不仅延迟更高,任务成功率也低了9个百分点。

更关键的是成本对比——谷歌这款最新模型在单次基准测试中平均消耗355.9个Token,花费约147.1美元;而Gemini 3.1 Pro Preview仅消耗73.3个Token,费用约为前者的三分之一。

当然,需要指出的是,谷歌目前在榜单上列出的仍是Gemini 3.1 Pro的预览版本。但即便如此,这款预览版模型的得分依然高于一款被官方宣传为"更快、更高效"的正式版模型,这一结果颇为耐人寻味。

GPT 5.5在单次运行成本上与Gemini 3.5 Flash相近,但后者在Android Bench测试中的Token消耗量是前者的5.5倍。Anthropic的上一代模型Claude Opus 4.7排名第四,运行成本和Token用量略低,处于中游水平。目前谷歌尚未公布Opus 4.8或Fable 5的基准测试得分。

以下是谷歌在最新一期Android Bench中公布的前十名模型排名:

榜单中既有多款开放权重模型,也包含Claude、GPT等知名闭源模型。与上一期相比,榜单前段的排名基本保持不变,唯一的调整是GPT 5.3 Codex已从名单中移除。

完整排名可在谷歌官方网站上查阅。

谷歌会随着更多模型完成测试而定期更新该榜单。从整体来看,这份榜单是衡量各模型在安卓开发领域表现的可靠参考。Gemini 3.5 Flash在其他大语言模型及智能体任务中确实表现出色,尽管谷歌对其成本和使用上限有所调整,但其在安卓编程方面的短板同样不容忽视。

Q&A

Q1:Android Bench是什么?谷歌用它来评估什么?

A:Android Bench是谷歌发布的一项基准测试,专门用于评估各主流AI模型在安卓编程领域的表现。每个模型会经历10次运行,以成功解决安卓编程问题的百分比作为得分,满分为100分。谷歌会随新模型发布持续更新榜单,同时公布每个模型的Token使用量及对应成本,帮助开发者选择最适合安卓开发场景的AI模型。

Q2:Gemini 3.5 Flash在Android Bench中表现如何?

A:Gemini 3.5 Flash在最新一期Android Bench中仅排名第六,不仅未能进入前五,还落后于更早测试的Gemini 3.1 Pro Preview。其单次基准测试平均消耗355.9个Token,花费约147.1美元,是Gemini 3.1 Pro Preview成本的约3倍,同时任务成功率还低了9个百分点,延迟也更高,在安卓编程场景中性价比表现欠佳。

Q3:目前Android Bench排名靠前的AI模型有哪些?

A:根据谷歌最新公布的Android Bench榜单,排名靠前的模型包括GPT 5.5、Gemini 3.1 Pro Preview等闭源模型,以及多款开放权重模型。Claude Opus 4.7排名第四,Token消耗和运行成本处于中游水平。与上一期相比,榜单前段排名基本稳定,主要变化是GPT 5.3 Codex已从榜单中移除。

来源:Electrek

0赞

好文章,需要你的鼓励

2026

06/15

15:39

分享

点赞

邮件订阅