今天,谷歌 DeepMind AI 研究部门推出了 Gemini 2.5 Pro “I/O”版,这是一款全新版本的 Gemini 2.5 Pro 多模态大语言模型,该模型于三月发布,DeepMind 首席执行官 Demis Hassabis 在 X 上表示这是“我们迄今为止构建的最佳编程模型”!
初步发布的基准测试结果表明,自2022年底 ChatGPT 推出后生成式 AI 竞赛全面启动以来,谷歌首次在至少一个重要编程基准测试中领先于所有其他模型。
这款新版本标记为 “gemini-2.5-pro-preview-05-06”,取代了此前发布的 03-25 版本,目前已在 Google AI Studio 面向独立开发者、在 Vertex AI 云平台面向企业,以及在 Gemini 应用面向个人用户开放。谷歌在其博客中还提到,该版本还支持 Gemini 移动应用中的 Canvas 及其他功能。
该新版本推动了 Gemini 95 等应用程序的功能开发,在这些应用中,模型能够自动匹配各组件之间的视觉风格。它还能实现将 YouTube 视频转换为功能完善的学习应用程序、以及打造诸如响应式视频播放器或带动画效果的听写用户界面等高度定制化组件,而几乎无需手动编辑 CSS。
需要注意的是,这是一款专有模型,意味着企业需要付费才能使用,并且只能通过谷歌的 Web 服务访问。不过,这并不改变定价或速率限制;当前 Gemini 2.5 Pro 用户将自动切换到该更新模型,其收费标准为每百万 Token 进/出分别 .25 和 (适用于 200,000 Token 的上下文长度),相比之下 Claude 3.7 Sonnet 则为 /。
谷歌将这一举动——在本月晚些时候于 Mountain View 举行及在线举办的年度 I/O(input/output)开发者大会之前——定位为对广大社区对于 Gemini 在实际代码生成和界面设计中实用性反馈的积极响应。
Logan Kilpatrick,Gemini API 与 Google AI Studio 高级产品经理,在一篇开发者博客文章中证实,此次更新还针对开发者关于函数调用的关键反馈进行了改进,提升了错误率降低和触发可靠性。
【人类评审在开发 Web 应用生成中的最高得分】
在 WebDev Arena Leaderboard 上,这一第三方指标根据模型生成外观良好且功能完善的 Web 应用的能力及人类喜好进行排名,目前 Gemini 2.5 Pro Preview(05-06)已超越 Anthropic 的 Claude 3.7 Sonnet,位居榜首。
该新版本在排行榜上的得分为 1499.95,远超 Sonnet 3.7 的 1377.10。之前的 Gemini 2.5 Pro(03-25)版本以 1278.96 的得分位列第三,这意味着 I/O 版实现了 221 分的跃升。
正如 AI 高级用户 “Lisan al Gaib” 在 X 上所指出的,即使 OpenAI 的 GPT-4o (“o3”) 也未能取代 Sonnet 3.7,这突显了 Gemini 进步的显著意义。
Gemini 性能的提升反映在其输出结果的可靠性、美观性和易用性方面均有改善。
【赢得好评不断】
多位开发者和平台领导人强调了该模型在可靠性及生产环境应用中的提升。
Cognition 的 Silas Alberti 指出,Gemini 2.5 Pro 是首个成功完成后端路由系统复杂重构的模型,展现了让人期待资深开发者般的决策能力。
AI 编程工具 Cursor 的首席执行官 Michael Truell 表示,内部测试显示工具调用失败显著减少,这一问题此前曾被广泛关注。他预计用户会发现最新版本在实际应用环境下效率大为提升。Cursor 已将 Gemini 2.5 Pro 集成进自己的代码代理中,这反映了开发者如何将该模型视为构建更智能开发流程的关键组成部分。
Replit 总裁 Michele Catasta 将 Gemini 2.5 Pro 形容为在能力与延迟之间取得平衡的最佳前沿模型。他的评价暗示 Replit 正考虑将该模型集成到自家工具中,尤其在高响应和高可靠性任务中。
同样,AI 教育者及 BlueShell 私人 AI 聊天机器人创始人 Paul Couvert 在 X 上表示,“其代码和用户界面生成功能令人印象深刻。”
而 AI 艺术工具 EverArt 的首席执行官 Pietro Schirano 在 X 上指出,全新的 Gemini 2.5 Pro I/O 版仅凭一个提示就能生成最近在社交媒体上流传的 “1 猩猩对 100 人” 带有交互效果的模拟。
另一位用户 “RameshR” (@rezmeram) 在 X 上展示了一个据称在不到一分钟内创作完成、带有实音效的类似俄罗版俄罗斯方块拼图游戏,他写道:“休闲游戏行业已经死亡!!”
这些来自业内的认可进一步佐证了 DeepMind 在实际改进方面的实力,并有望促使更多开发者平台进行广泛采纳。
【从一个文本提示生成完整应用程序】
此次更新的一大亮点是其能够根据单个提示生成完整的、具有交互性的 Web 应用或模拟程序。
这与 DeepMind 简化原型设计与开发流程的愿景相契合。
在 Gemini 应用中的演示展示出,用户如何将视觉图案或主题化提示转换为可用代码,大大降低了设计导向开发者和团队试验新想法的门槛。
虽然目前尚未公开 Gemini 2.5 Pro 的架构及其内部变更细节,但其重点依然在于实现更快速、更直观的开发体验。
通过充分发挥其在代码生成与多模态输入方面的优势,Gemini 2.5 Pro 不仅仅定位为一个研究新奇产品,而更是针对实际编程挑战的实用工具。提前发布这一版本明确展现了 Google DeepMind 为满足开发者需求、并在重要大会发布前保持势头所作出的努力。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。