今天,谷歌 DeepMind AI 研究部门推出了 Gemini 2.5 Pro “I/O”版,这是一款全新版本的 Gemini 2.5 Pro 多模态大语言模型,该模型于三月发布,DeepMind 首席执行官 Demis Hassabis 在 X 上表示这是“我们迄今为止构建的最佳编程模型”!
初步发布的基准测试结果表明,自2022年底 ChatGPT 推出后生成式 AI 竞赛全面启动以来,谷歌首次在至少一个重要编程基准测试中领先于所有其他模型。
这款新版本标记为 “gemini-2.5-pro-preview-05-06”,取代了此前发布的 03-25 版本,目前已在 Google AI Studio 面向独立开发者、在 Vertex AI 云平台面向企业,以及在 Gemini 应用面向个人用户开放。谷歌在其博客中还提到,该版本还支持 Gemini 移动应用中的 Canvas 及其他功能。
该新版本推动了 Gemini 95 等应用程序的功能开发,在这些应用中,模型能够自动匹配各组件之间的视觉风格。它还能实现将 YouTube 视频转换为功能完善的学习应用程序、以及打造诸如响应式视频播放器或带动画效果的听写用户界面等高度定制化组件,而几乎无需手动编辑 CSS。
需要注意的是,这是一款专有模型,意味着企业需要付费才能使用,并且只能通过谷歌的 Web 服务访问。不过,这并不改变定价或速率限制;当前 Gemini 2.5 Pro 用户将自动切换到该更新模型,其收费标准为每百万 Token 进/出分别 .25 和 (适用于 200,000 Token 的上下文长度),相比之下 Claude 3.7 Sonnet 则为 /。
谷歌将这一举动——在本月晚些时候于 Mountain View 举行及在线举办的年度 I/O(input/output)开发者大会之前——定位为对广大社区对于 Gemini 在实际代码生成和界面设计中实用性反馈的积极响应。
Logan Kilpatrick,Gemini API 与 Google AI Studio 高级产品经理,在一篇开发者博客文章中证实,此次更新还针对开发者关于函数调用的关键反馈进行了改进,提升了错误率降低和触发可靠性。
【人类评审在开发 Web 应用生成中的最高得分】
在 WebDev Arena Leaderboard 上,这一第三方指标根据模型生成外观良好且功能完善的 Web 应用的能力及人类喜好进行排名,目前 Gemini 2.5 Pro Preview(05-06)已超越 Anthropic 的 Claude 3.7 Sonnet,位居榜首。
该新版本在排行榜上的得分为 1499.95,远超 Sonnet 3.7 的 1377.10。之前的 Gemini 2.5 Pro(03-25)版本以 1278.96 的得分位列第三,这意味着 I/O 版实现了 221 分的跃升。
正如 AI 高级用户 “Lisan al Gaib” 在 X 上所指出的,即使 OpenAI 的 GPT-4o (“o3”) 也未能取代 Sonnet 3.7,这突显了 Gemini 进步的显著意义。
Gemini 性能的提升反映在其输出结果的可靠性、美观性和易用性方面均有改善。
【赢得好评不断】
多位开发者和平台领导人强调了该模型在可靠性及生产环境应用中的提升。
Cognition 的 Silas Alberti 指出,Gemini 2.5 Pro 是首个成功完成后端路由系统复杂重构的模型,展现了让人期待资深开发者般的决策能力。
AI 编程工具 Cursor 的首席执行官 Michael Truell 表示,内部测试显示工具调用失败显著减少,这一问题此前曾被广泛关注。他预计用户会发现最新版本在实际应用环境下效率大为提升。Cursor 已将 Gemini 2.5 Pro 集成进自己的代码代理中,这反映了开发者如何将该模型视为构建更智能开发流程的关键组成部分。
Replit 总裁 Michele Catasta 将 Gemini 2.5 Pro 形容为在能力与延迟之间取得平衡的最佳前沿模型。他的评价暗示 Replit 正考虑将该模型集成到自家工具中,尤其在高响应和高可靠性任务中。
同样,AI 教育者及 BlueShell 私人 AI 聊天机器人创始人 Paul Couvert 在 X 上表示,“其代码和用户界面生成功能令人印象深刻。”
而 AI 艺术工具 EverArt 的首席执行官 Pietro Schirano 在 X 上指出,全新的 Gemini 2.5 Pro I/O 版仅凭一个提示就能生成最近在社交媒体上流传的 “1 猩猩对 100 人” 带有交互效果的模拟。
另一位用户 “RameshR” (@rezmeram) 在 X 上展示了一个据称在不到一分钟内创作完成、带有实音效的类似俄罗版俄罗斯方块拼图游戏,他写道:“休闲游戏行业已经死亡!!”
这些来自业内的认可进一步佐证了 DeepMind 在实际改进方面的实力,并有望促使更多开发者平台进行广泛采纳。
【从一个文本提示生成完整应用程序】
此次更新的一大亮点是其能够根据单个提示生成完整的、具有交互性的 Web 应用或模拟程序。
这与 DeepMind 简化原型设计与开发流程的愿景相契合。
在 Gemini 应用中的演示展示出,用户如何将视觉图案或主题化提示转换为可用代码,大大降低了设计导向开发者和团队试验新想法的门槛。
虽然目前尚未公开 Gemini 2.5 Pro 的架构及其内部变更细节,但其重点依然在于实现更快速、更直观的开发体验。
通过充分发挥其在代码生成与多模态输入方面的优势,Gemini 2.5 Pro 不仅仅定位为一个研究新奇产品,而更是针对实际编程挑战的实用工具。提前发布这一版本明确展现了 Google DeepMind 为满足开发者需求、并在重要大会发布前保持势头所作出的努力。
好文章,需要你的鼓励
这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使生成分钟级长视频成为可能。实验表明,在生成1,025帧视频时,DualParal比现有技术减少了高达6.54倍的延迟和1.48倍的内存成本,同时保持了高质量的视频输出,为内容创作者提供了生成更长、更复杂视频叙事的新工具。
SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型相比,SoloSpeech采用无需说话者嵌入的设计,直接利用提示音频的潜在空间信息与混合音频对齐,有效避免特征不匹配问题。在Libri2Mix及多个真实世界数据集上的评测显示,SoloSpeech在清晰度、质量和泛化能力上均达到了领先水平,为语音分离技术开辟了新方向。
这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始帧形成平衡影响,从而生成更自然流畅的中间过渡帧。实验证明,该方法在各种场景下都优于现有技术,特别适用于电影制作、动画创作和视频编辑领域,显著降低了人力成本。
这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反思性探索,在数学推理任务上展现出显著优势,比基线方法减少高达50%的标记使用量,同时提高了准确率。这一研究不仅解释了"为什么反思有用",还提供了实用的指导原则,为AI系统的自适应推理能力开辟了新方向。