今天,谷歌 DeepMind AI 研究部门推出了 Gemini 2.5 Pro “I/O”版,这是一款全新版本的 Gemini 2.5 Pro 多模态大语言模型,该模型于三月发布,DeepMind 首席执行官 Demis Hassabis 在 X 上表示这是“我们迄今为止构建的最佳编程模型”!
初步发布的基准测试结果表明,自2022年底 ChatGPT 推出后生成式 AI 竞赛全面启动以来,谷歌首次在至少一个重要编程基准测试中领先于所有其他模型。
这款新版本标记为 “gemini-2.5-pro-preview-05-06”,取代了此前发布的 03-25 版本,目前已在 Google AI Studio 面向独立开发者、在 Vertex AI 云平台面向企业,以及在 Gemini 应用面向个人用户开放。谷歌在其博客中还提到,该版本还支持 Gemini 移动应用中的 Canvas 及其他功能。
该新版本推动了 Gemini 95 等应用程序的功能开发,在这些应用中,模型能够自动匹配各组件之间的视觉风格。它还能实现将 YouTube 视频转换为功能完善的学习应用程序、以及打造诸如响应式视频播放器或带动画效果的听写用户界面等高度定制化组件,而几乎无需手动编辑 CSS。
需要注意的是,这是一款专有模型,意味着企业需要付费才能使用,并且只能通过谷歌的 Web 服务访问。不过,这并不改变定价或速率限制;当前 Gemini 2.5 Pro 用户将自动切换到该更新模型,其收费标准为每百万 Token 进/出分别 .25 和 (适用于 200,000 Token 的上下文长度),相比之下 Claude 3.7 Sonnet 则为 /。
谷歌将这一举动——在本月晚些时候于 Mountain View 举行及在线举办的年度 I/O(input/output)开发者大会之前——定位为对广大社区对于 Gemini 在实际代码生成和界面设计中实用性反馈的积极响应。
Logan Kilpatrick,Gemini API 与 Google AI Studio 高级产品经理,在一篇开发者博客文章中证实,此次更新还针对开发者关于函数调用的关键反馈进行了改进,提升了错误率降低和触发可靠性。
【人类评审在开发 Web 应用生成中的最高得分】
在 WebDev Arena Leaderboard 上,这一第三方指标根据模型生成外观良好且功能完善的 Web 应用的能力及人类喜好进行排名,目前 Gemini 2.5 Pro Preview(05-06)已超越 Anthropic 的 Claude 3.7 Sonnet,位居榜首。
该新版本在排行榜上的得分为 1499.95,远超 Sonnet 3.7 的 1377.10。之前的 Gemini 2.5 Pro(03-25)版本以 1278.96 的得分位列第三,这意味着 I/O 版实现了 221 分的跃升。
正如 AI 高级用户 “Lisan al Gaib” 在 X 上所指出的,即使 OpenAI 的 GPT-4o (“o3”) 也未能取代 Sonnet 3.7,这突显了 Gemini 进步的显著意义。
Gemini 性能的提升反映在其输出结果的可靠性、美观性和易用性方面均有改善。
【赢得好评不断】
多位开发者和平台领导人强调了该模型在可靠性及生产环境应用中的提升。
Cognition 的 Silas Alberti 指出,Gemini 2.5 Pro 是首个成功完成后端路由系统复杂重构的模型,展现了让人期待资深开发者般的决策能力。
AI 编程工具 Cursor 的首席执行官 Michael Truell 表示,内部测试显示工具调用失败显著减少,这一问题此前曾被广泛关注。他预计用户会发现最新版本在实际应用环境下效率大为提升。Cursor 已将 Gemini 2.5 Pro 集成进自己的代码代理中,这反映了开发者如何将该模型视为构建更智能开发流程的关键组成部分。
Replit 总裁 Michele Catasta 将 Gemini 2.5 Pro 形容为在能力与延迟之间取得平衡的最佳前沿模型。他的评价暗示 Replit 正考虑将该模型集成到自家工具中,尤其在高响应和高可靠性任务中。
同样,AI 教育者及 BlueShell 私人 AI 聊天机器人创始人 Paul Couvert 在 X 上表示,“其代码和用户界面生成功能令人印象深刻。”
而 AI 艺术工具 EverArt 的首席执行官 Pietro Schirano 在 X 上指出,全新的 Gemini 2.5 Pro I/O 版仅凭一个提示就能生成最近在社交媒体上流传的 “1 猩猩对 100 人” 带有交互效果的模拟。
另一位用户 “RameshR” (@rezmeram) 在 X 上展示了一个据称在不到一分钟内创作完成、带有实音效的类似俄罗版俄罗斯方块拼图游戏,他写道:“休闲游戏行业已经死亡!!”
这些来自业内的认可进一步佐证了 DeepMind 在实际改进方面的实力,并有望促使更多开发者平台进行广泛采纳。
【从一个文本提示生成完整应用程序】
此次更新的一大亮点是其能够根据单个提示生成完整的、具有交互性的 Web 应用或模拟程序。
这与 DeepMind 简化原型设计与开发流程的愿景相契合。
在 Gemini 应用中的演示展示出,用户如何将视觉图案或主题化提示转换为可用代码,大大降低了设计导向开发者和团队试验新想法的门槛。
虽然目前尚未公开 Gemini 2.5 Pro 的架构及其内部变更细节,但其重点依然在于实现更快速、更直观的开发体验。
通过充分发挥其在代码生成与多模态输入方面的优势,Gemini 2.5 Pro 不仅仅定位为一个研究新奇产品,而更是针对实际编程挑战的实用工具。提前发布这一版本明确展现了 Google DeepMind 为满足开发者需求、并在重要大会发布前保持势头所作出的努力。
好文章,需要你的鼓励
惠普企业与爱立信合作开设研究设施,验证双模5G核心服务,为电信运营商提供"无缝"下一代核心网络。联合验证实验室将解决多供应商基础设施部署中的关键挑战,进行互操作性测试。实验室位于瑞典爱立信总部附近,2025年底投入运营。该方案结合爱立信双模5G核心服务与惠普服务器、网络架构和红帽OpenShift平台,支持5G和4G网络,降低复杂性和运营成本。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
高通在骁龙峰会2025上发布新一代骁龙8 Elite Gen 5芯片,AI处理速度从15令牌/秒提升至220令牌/秒,为真正的AI代理性能奠定硬件基础。AI首席官马拉迪表示,个性化AI助手即将到来,能够利用设备本地文档和图片等数据提供智能服务。尽管生成式AI仍面临准确性挑战,但硬件已不再是障碍,关键在于制造商的集成应用。AI代理将改变人机交互方式,自动化繁琐任务,让用户更高效地使用设备功能。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。