Google今天发布了其最强大的Gemini模型,但普通用户可能无法体验。在去年5月I/O大会上首次亮相Gemini 2.5 Deep Think后,Google正式在Gemini应用中推出这一AI功能。Deep Think专为处理最复杂的查询而设计,这意味着它需要消耗比其他模型更多的计算资源。因此,只有订阅Google价值250美元AI Ultra计划的用户才能使用这项功能。
Deep Think基于与Gemini 2.5 Pro相同的基础架构,但通过更大规模的并行分析增加了"思考时间"。据Google介绍,Deep Think会探索解决问题的多种方法,甚至会重新审视和重组它生成的各种假设。这一过程帮助它产出更高质量的答案。
与其他重量级Gemini工具类似,Deep Think需要几分钟时间才能给出答案。这显然让AI在设计美学、科学推理和编程方面更加出色。Google已经用常规基准测试对Deep Think进行了评估,结果显示它超越了标准的Gemini 2.5 Pro以及OpenAI o3和Grok 4等竞争模型。Deep Think在"人类最后考试"基准测试中表现尤其突出,这是一个包含2500个复杂多模态问题的测试集,涵盖100多个学科。其他模型的得分最高只达到20%或25%,而Gemini 2.5 Deep Think取得了34.8%的成绩。
数学是Deep Think的一个重要专长领域,它在AIME基准测试中也展现了强劲表现。不过,这方面仍有改进空间。Google最近透露,它使用了经过特殊训练的Deep Think版本参加国际数学奥林匹克竞赛(IMO),这个版本可以持续思考数小时才给出解决方案。该模型首次赢得了IMO金牌。Google目前只将IMO版本的Deep Think分发给可信测试人员,但希望稍后更广泛地发布。与此同时,标准版Deep Think在2025年IMO测试中仍能达到铜牌水平。
Google AI Ultra订阅用户从今天开始可以在Gemini应用和网页界面中使用Deep Think,但它不会出现在主模型菜单中。当用户选择Gemini 2.5 Pro时,可以将其作为工具访问(与Deep Research、Canvas等功能并列)。即使拥有Google昂贵的AI订阅服务,Google表示每天使用Deep Think查询的次数仍有限制。公司并未明确具体限制数量,也不提供详细信息,暗示这一限制会随时间调整。Deep Think最终将通过API开放,为开发者提供付费服务方式来获得更多提示功能。
Q&A
Q1:Gemini 2.5 Deep Think与普通版本有什么区别?
A:Deep Think基于Gemini 2.5 Pro架构,但通过更大规模的并行分析增加了"思考时间"。它会探索解决问题的多种方法,重新审视和重组生成的假设,产出更高质量的答案,但需要几分钟才能给出回应。
Q2:哪些用户可以使用Gemini 2.5 Deep Think?
A:目前只有订阅Google价值250美元AI Ultra计划的用户才能使用Deep Think功能。即使是付费用户,每天使用Deep Think查询的次数也有限制,具体数量Google未公开。
Q3:Gemini 2.5 Deep Think在数学方面表现如何?
A:Deep Think在数学领域表现出色,在AIME基准测试中有强劲表现。特殊训练版本甚至首次赢得了国际数学奥林匹克竞赛金牌,标准版本也能在2025年IMO测试中达到铜牌水平。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。