谷歌 Gemini 2.5 Pro I/O 版登基为新一代 AI 编程之王:超越 Claude 3.7 Sonnet

本文介绍了Google DeepMind推出的升级版Gemini 2.5 Pro I/O版,其在代码生成方面表现卓越,刷新了相关基准测试成绩,并获得开发者一致好评,加速真实编程场景落地应用。

今天,谷歌 DeepMind AI 研究部门推出了 Gemini 2.5 Pro “I/O”版,这是一款全新版本的 Gemini 2.5 Pro 多模态大语言模型,该模型于三月发布,DeepMind 首席执行官 Demis Hassabis 在 X 上表示这是“我们迄今为止构建的最佳编程模型”!

初步发布的基准测试结果表明,自2022年底 ChatGPT 推出后生成式 AI 竞赛全面启动以来,谷歌首次在至少一个重要编程基准测试中领先于所有其他模型。

这款新版本标记为 “gemini-2.5-pro-preview-05-06”,取代了此前发布的 03-25 版本,目前已在 Google AI Studio 面向独立开发者、在 Vertex AI 云平台面向企业,以及在 Gemini 应用面向个人用户开放。谷歌在其博客中还提到,该版本还支持 Gemini 移动应用中的 Canvas 及其他功能。

该新版本推动了 Gemini 95 等应用程序的功能开发,在这些应用中,模型能够自动匹配各组件之间的视觉风格。它还能实现将 YouTube 视频转换为功能完善的学习应用程序、以及打造诸如响应式视频播放器或带动画效果的听写用户界面等高度定制化组件,而几乎无需手动编辑 CSS。

需要注意的是,这是一款专有模型,意味着企业需要付费才能使用,并且只能通过谷歌的 Web 服务访问。不过,这并不改变定价或速率限制;当前 Gemini 2.5 Pro 用户将自动切换到该更新模型,其收费标准为每百万 Token 进/出分别 .25 和 (适用于 200,000 Token 的上下文长度),相比之下 Claude 3.7 Sonnet 则为 /。

谷歌将这一举动——在本月晚些时候于 Mountain View 举行及在线举办的年度 I/O(input/output)开发者大会之前——定位为对广大社区对于 Gemini 在实际代码生成和界面设计中实用性反馈的积极响应。

Logan Kilpatrick,Gemini API 与 Google AI Studio 高级产品经理,在一篇开发者博客文章中证实,此次更新还针对开发者关于函数调用的关键反馈进行了改进,提升了错误率降低和触发可靠性。

【人类评审在开发 Web 应用生成中的最高得分】

在 WebDev Arena Leaderboard 上,这一第三方指标根据模型生成外观良好且功能完善的 Web 应用的能力及人类喜好进行排名,目前 Gemini 2.5 Pro Preview(05-06)已超越 Anthropic 的 Claude 3.7 Sonnet,位居榜首。

该新版本在排行榜上的得分为 1499.95,远超 Sonnet 3.7 的 1377.10。之前的 Gemini 2.5 Pro(03-25)版本以 1278.96 的得分位列第三,这意味着 I/O 版实现了 221 分的跃升。

正如 AI 高级用户 “Lisan al Gaib” 在 X 上所指出的,即使 OpenAI 的 GPT-4o (“o3”) 也未能取代 Sonnet 3.7,这突显了 Gemini 进步的显著意义。

Gemini 性能的提升反映在其输出结果的可靠性、美观性和易用性方面均有改善。

【赢得好评不断】

多位开发者和平台领导人强调了该模型在可靠性及生产环境应用中的提升。

Cognition 的 Silas Alberti 指出,Gemini 2.5 Pro 是首个成功完成后端路由系统复杂重构的模型,展现了让人期待资深开发者般的决策能力。

AI 编程工具 Cursor 的首席执行官 Michael Truell 表示,内部测试显示工具调用失败显著减少,这一问题此前曾被广泛关注。他预计用户会发现最新版本在实际应用环境下效率大为提升。Cursor 已将 Gemini 2.5 Pro 集成进自己的代码代理中,这反映了开发者如何将该模型视为构建更智能开发流程的关键组成部分。

Replit 总裁 Michele Catasta 将 Gemini 2.5 Pro 形容为在能力与延迟之间取得平衡的最佳前沿模型。他的评价暗示 Replit 正考虑将该模型集成到自家工具中,尤其在高响应和高可靠性任务中。

同样,AI 教育者及 BlueShell 私人 AI 聊天机器人创始人 Paul Couvert 在 X 上表示,“其代码和用户界面生成功能令人印象深刻。”

而 AI 艺术工具 EverArt 的首席执行官 Pietro Schirano 在 X 上指出,全新的 Gemini 2.5 Pro I/O 版仅凭一个提示就能生成最近在社交媒体上流传的 “1 猩猩对 100 人” 带有交互效果的模拟。

另一位用户 “RameshR” (@rezmeram) 在 X 上展示了一个据称在不到一分钟内创作完成、带有实音效的类似俄罗版俄罗斯方块拼图游戏,他写道:“休闲游戏行业已经死亡!!”

这些来自业内的认可进一步佐证了 DeepMind 在实际改进方面的实力,并有望促使更多开发者平台进行广泛采纳。

【从一个文本提示生成完整应用程序】

此次更新的一大亮点是其能够根据单个提示生成完整的、具有交互性的 Web 应用或模拟程序。

这与 DeepMind 简化原型设计与开发流程的愿景相契合。

在 Gemini 应用中的演示展示出,用户如何将视觉图案或主题化提示转换为可用代码,大大降低了设计导向开发者和团队试验新想法的门槛。

虽然目前尚未公开 Gemini 2.5 Pro 的架构及其内部变更细节,但其重点依然在于实现更快速、更直观的开发体验。

通过充分发挥其在代码生成与多模态输入方面的优势,Gemini 2.5 Pro 不仅仅定位为一个研究新奇产品,而更是针对实际编程挑战的实用工具。提前发布这一版本明确展现了 Google DeepMind 为满足开发者需求、并在重要大会发布前保持势头所作出的努力。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

05/07

18:17

分享

点赞

邮件订阅