Google产品中生成式AI的快速发展有时令人眼花缭乱,即便想避开这些功能也很困难。其中AI概览功能就是一个典型例子。这个AI驱动的搜索体验因经常出错而声名狼藉,不过你可能会注意到一些改进。Google表示,AI概览正在升级到最新的Gemini 3模型,并增加了更多对话功能。
仅在过去一年中,Google就大幅扩展了AI概览在搜索结果顶部出现的频率。如今,这个聊天机器人几乎总能为你的查询提供答案,主要依靠Google的Gemini 2.5系列模型。作为生成式AI模型,Gemini 2.5本身并没有问题,但Gemini 3在各项指标上都表现更佳。
当然,Gemini 3有多个版本,Google不喜欢明确说明搜索中使用的具体版本。Google表示,AI概览会为特定任务选择合适的模型。如果你搜索的是有大量有效信息源的简单内容,AI概览可能会使用Gemini 3 Flash等轻量级模型,而不会消耗大量推理Token。对于复杂的"长尾"查询,它可能会加强思考过程或转向Gemini 3 Pro(针对付费订阅用户)。
必须明确的是,Gemini 3和其他生成式AI系统一样仍可能出错。但它确实比之前的模型更频繁地给出正确答案。轻量级的Gemini 3 Flash模型在知识基准测试中的得分比2.5版本提高了一倍多。既然你真的无法避开AI概览(除非不用Google),那么Google部署更准确的模型至少是个好消息。
作为此次更新的一部分,Google还通过在AI概览和AI模式之间建立桥梁来进一步推广AI模式。Google表示,测试用户更喜欢能够自然地从搜索模式转向对话模式的体验。因此,AI概览将获得将后续问题转交给AI模式的能力。
据Google介绍,这种"流畅"的体验更能满足人们在搜索栏输入内容时的需求——无论是快速获取信息还是进行深度对话。然而,AI模式向传统搜索体验的扩展也将继续把用户从Google日渐被忽视的蓝色链接列表中吸引走。AI模式可能从这些网站抓取内容,但它将用户留在了Google的生态圈中。这就是AI时代的搜索现状。
Q&A
Q1:Gemini 3相比Gemini 2.5有什么改进?
A:Gemini 3在各项指标上都比Gemini 2.5表现更佳。其中轻量级的Gemini 3 Flash模型在知识基准测试中的得分比2.5版本提高了一倍多,能够更频繁地给出正确答案,虽然仍可能出错但准确率显著提升。
Q2:AI概览如何选择不同的Gemini 3模型版本?
A:AI概览会根据查询的复杂程度选择合适的模型。对于有大量有效信息源的简单查询,会使用Gemini 3 Flash等轻量级模型;对于复杂的"长尾"查询,会使用更强大的推理能力或转向Gemini 3 Pro版本(针对付费用户)。
Q3:Google为什么要在AI概览中融入AI模式功能?
A:Google发现测试用户更喜欢能够自然地从搜索模式转向对话模式的体验。通过让AI概览获得将后续问题转交给AI模式的能力,用户可以根据需求选择快速获取信息还是进行深度对话,提供更流畅的搜索体验。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。