谷歌近期发布了新一期基准测试结果,对各主流AI模型在安卓编程领域的表现进行了横向对比,并公布了每个模型的Token使用成本。测试结果显示,谷歌自家的Gemini 3.5 Flash在安卓开发中资源消耗最为突出,甚至未能跻身前五名。
随着通用聊天机器人的热度逐渐降温,谷歌、OpenAI、Anthropic等公司纷纷将重心转向具备编程能力的智能体模型。用户也开始依赖这类模型进行"氛围编程"——即将大部分软件开发工作交由大语言模型来完成。
近几个月来,各模型在安卓编程方面的能力均有显著提升,谷歌也持续追踪并记录各模型的表现。"Android Bench"基准测试会随谷歌新模型的发布而更新,例如此次纳入了最新的Gemini 3.5 Flash,并将其与竞品进行对比。
该测试的核心评估方式是:每个模型在10次运行中成功解决安卓编程问题的百分比,满分为100分。谷歌还列出了预期表现及最近一次测试日期,部分高分模型的数据甚至可追溯至今年2月。
在最新一期的Android Bench排名中,结果令人意外。Gemini 3.5 Flash仅排名第六,落后于GPT 5.5以及早在今年2月就完成测试的Gemini 3.1 Pro Preview。
Gemini 3.5 Flash此前被定位为比Gemini 3.1 Pro更廉价、更快速的替代方案,官方预期性能差距为6.1%。然而最新基准测试结果却给出了不同的结论:在安卓开发场景下,Gemini 3.5 Flash不仅延迟更高,任务成功率也低了9个百分点。
更关键的是成本对比——谷歌这款最新模型在单次基准测试中平均消耗355.9个Token,花费约147.1美元;而Gemini 3.1 Pro Preview仅消耗73.3个Token,费用约为前者的三分之一。
当然,需要指出的是,谷歌目前在榜单上列出的仍是Gemini 3.1 Pro的预览版本。但即便如此,这款预览版模型的得分依然高于一款被官方宣传为"更快、更高效"的正式版模型,这一结果颇为耐人寻味。
GPT 5.5在单次运行成本上与Gemini 3.5 Flash相近,但后者在Android Bench测试中的Token消耗量是前者的5.5倍。Anthropic的上一代模型Claude Opus 4.7排名第四,运行成本和Token用量略低,处于中游水平。目前谷歌尚未公布Opus 4.8或Fable 5的基准测试得分。
以下是谷歌在最新一期Android Bench中公布的前十名模型排名:
榜单中既有多款开放权重模型,也包含Claude、GPT等知名闭源模型。与上一期相比,榜单前段的排名基本保持不变,唯一的调整是GPT 5.3 Codex已从名单中移除。
完整排名可在谷歌官方网站上查阅。
谷歌会随着更多模型完成测试而定期更新该榜单。从整体来看,这份榜单是衡量各模型在安卓开发领域表现的可靠参考。Gemini 3.5 Flash在其他大语言模型及智能体任务中确实表现出色,尽管谷歌对其成本和使用上限有所调整,但其在安卓编程方面的短板同样不容忽视。
Q&A
Q1:Android Bench是什么?谷歌用它来评估什么?
A:Android Bench是谷歌发布的一项基准测试,专门用于评估各主流AI模型在安卓编程领域的表现。每个模型会经历10次运行,以成功解决安卓编程问题的百分比作为得分,满分为100分。谷歌会随新模型发布持续更新榜单,同时公布每个模型的Token使用量及对应成本,帮助开发者选择最适合安卓开发场景的AI模型。
Q2:Gemini 3.5 Flash在Android Bench中表现如何?
A:Gemini 3.5 Flash在最新一期Android Bench中仅排名第六,不仅未能进入前五,还落后于更早测试的Gemini 3.1 Pro Preview。其单次基准测试平均消耗355.9个Token,花费约147.1美元,是Gemini 3.1 Pro Preview成本的约3倍,同时任务成功率还低了9个百分点,延迟也更高,在安卓编程场景中性价比表现欠佳。
Q3:目前Android Bench排名靠前的AI模型有哪些?
A:根据谷歌最新公布的Android Bench榜单,排名靠前的模型包括GPT 5.5、Gemini 3.1 Pro Preview等闭源模型,以及多款开放权重模型。Claude Opus 4.7排名第四,Token消耗和运行成本处于中游水平。与上一期相比,榜单前段排名基本稳定,主要变化是GPT 5.3 Codex已从榜单中移除。
好文章,需要你的鼓励
就在Insta360发布旗舰新品Luna Ultra相机的同一天,大疆DJI随即提起两项专利侵权诉讼,指控其抄袭Osmo Pocket系列核心技术。Insta360在24小时内迅速反击,同样提出两项诉讼,指控DJI侵犯其云台稳定、位置成像等专利。这场四起诉讼的法律战,折射出两家公司产品线不断交叉、争夺同一创作者市场的深层竞争现实。
香港理工大学提出"光学推理",将AI推理步骤渲染为图片代替文字,在五款顶级AI模型测试中平均节省28%令牌,效率近两倍。
谷歌母公司Alphabet CEO桑达尔·皮查伊在斯坦福大学2026届毕业典礼上发表演讲。他分享了三条人生建议:选择乐观主义,以"加州黄金视角"重构对世界的认知;勇于挑战难事,以Chrome浏览器从"四舍五入的误差"到全球主流浏览器的逆袭经历为例;以及在条件相当时,选择令自己兴奋的事情。他同时强调,人生中真正关键的抉择并不多,无需对每个时刻都施加过多压力。
卡内基梅隆大学等机构发现,16%的主流AI评测任务存在可被绕过的漏洞,并提出三智能体自动防御方案,将KernelBench攻击成功率从76%降至0%。