2025年成为AI浏览器元年,OpenAI、Perplexity、Opera和The Browser Company等公司纷纷推出具备侧边栏助手和自动化任务的AI浏览器,试图挑战Chrome的地位。现在,谷歌正通过为全球最大市场份额的Chrome浏览器添加类似功能来展示其AI实力。
虽然谷歌去年9月就将Gemini引入了Chrome,但当时助手只存在于浮动窗口中。此次更新将AI助手整合到持久化侧边栏,用户可以询问当前网页或其他打开标签页的相关问题。
多标签页情境感知功能
谷歌在今日发布前向媒体展示的一个有趣功能涉及多标签页处理。当你从单个网页打开不同标签页时,Gemini侧边栏会将它们理解为一个情境组。这在比较价格或考虑购买不同产品时特别有用。
在此之前,Chrome中的Gemini功能仅限Windows和MacOS用户使用。随着此次推广,侧边栏功能也将向Chromebook Plus用户开放。
个人智能功能整合
谷歌还充分利用了其新推出的个人智能功能,该功能连接用户的Gmail、搜索、YouTube和Google相册账户,允许基于个人数据进行询问。这项功能将在未来几个月内在Chrome中推出,意味着用户可以在侧边栏询问Gemini关于家庭日程安排等问题,或者让它起草并发送邮件而无需切换到Gmail。
Chrome还将新增Nano Banana整合功能,允许用户使用浏览时发现的其他图像或产品来修改现有图像。
自动浏览功能开启智能体时代
最具雄心的功能是"自动浏览",旨在使用用户个人信息并代表用户遍历网站来处理任务。例如,用户可以要求智能体功能前往特定网站购买商品并寻找折扣券。在执行数据敏感任务时,如登录网站或最终购买时,智能体会请求用户干预。
谷歌去年解释称,这些功能将使用Chrome的密码管理器或保存的卡片详情,但其AI模型不会接触到任何这些详细信息。
该功能最初向美国的AI Pro和Ultra订阅用户推出。
实际应用挑战与前景
基于浏览器的智能体往往不稳定,经常无法完成任务。谷歌的演示,就像许多其他AI演示一样,涉及购物和旅行规划。在实际使用案例中,智能体往往无法理解意图或在遍历不同网站时出现故障,这将成为更广泛采用的挑战。
谷歌表示,在早期测试中,用户已使用该功能进行预约安排、填写繁琐的在线表格、收集税务文件、获取水电工报价以及填写费用报告等任务。
谷歌表示,Gemini侧边栏支持和Nano Banana整合功能从今日开始推出,而个人智能功能将在"未来几个月"内提供。
Q&A
Q1:Chrome的新Gemini侧边栏有什么特别功能?
A:新的Gemini侧边栏可以理解多标签页作为情境组,在用户从单个网页打开不同标签时,帮助比较价格或产品。用户还可以询问当前网页或其他打开标签页的相关问题,比传统浮动窗口更方便。
Q2:Chrome的自动浏览功能安全吗?
A:谷歌表示自动浏览功能在执行敏感任务如登录网站或购买时会要求用户干预。虽然功能使用Chrome的密码管理器和卡片信息,但AI模型不会接触到这些敏感详情。
Q3:普通用户什么时候能使用Chrome的AI功能?
A:Gemini侧边栏支持从今日开始推出,面向Windows、MacOS和Chromebook Plus用户。自动浏览功能目前仅向美国AI Pro和Ultra订阅用户开放,个人智能功能将在未来几个月推出。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。