谷歌在周三宣布对其Android操作系统上的Gemini AI功能进行一系列更新,其中最引人注目的是一种新的方式,让AI处理诸如预订Uber或外卖等多步骤任务。这些自动化功能与今天推出的其他Gemini改进一起发布,包括扩展电话诈骗检测功能,以及"圈选搜索"功能的更新,现在可以识别手机屏幕上的所有物品。
谷歌解释说,这些自动化功能允许用户基本上将他们的待办事项列表交给Gemini处理。然而,在实际应用中,Gemini能够管理的任务类型仍然有限。
该公司表示,这项处于测试阶段的功能最初将支持食品、杂货和共享出行类别中的特定应用程序。
该功能还将仅限于特定设备上的Gemini应用,包括Pixel 10、Pixel 10 Pro和三星Galaxy S26系列。并且最初仅在美国和韩国提供。
当然,AI驱动的自动化功能可能会出错,因此谷歌增加了一些保护措施。首先,自动化操作不能在没有设备所有者明确命令的情况下启动。在执行过程中,您可以实时观看其进度,如果出现错误或卡住,可以停止任务。谷歌还指出,这些自动化操作在手机上的安全虚拟窗口中进行,只能访问有限的应用程序,而不是设备上的其他数据。
这一功能与使用AI在用户个人生活中自动化更多任务的趋势相吻合。例如,ChatGPT允许用户创建可以按计划或在特定时间运行的任务,还提供一个智能体,可以完成各种基于计算机的任务,如导航日历、生成幻灯片或运行代码。与此同时,Anthropic的Cowork将其Claude AI的功能引入非编码任务,让非开发人员自动化日常文件和任务管理。当然,最近一个名为OpenClaw的AI工具因其管理日常任务的能力而走红,如发送电子邮件、管理日历、办理登机手续等。
现在推出的另一个Gemini更新是电话诈骗检测功能的扩展,该功能将在美国的三星Galaxy S26系列设备上提供。(该功能已经在美国、澳大利亚、加拿大、印度、爱尔兰和英国的Pixel手机上提供。)谷歌还在美国、加拿大和英国的Pixel 10系列设备上使用其Gemini设备端模型来检测诈骗短信,不久也将在Galaxy S26系列手机上提供。
最后,谷歌表示其"圈选搜索"功能现在可以搜索您在手机屏幕上看到的所有内容,而不仅仅是单个对象。该功能允许您使用涂鸦和圈选等手势来启动搜索。这意味着您可以搜索您喜欢的服装中的每件衣服和每个配饰,或了解更多关于屏幕上一组事物及相关主题的信息。
谷歌一直在通过新的操作系统更新以及通过其被称为"Pixel Drops"的频繁更新向其旗舰手机Google Pixel定期发布Gemini更新到其Android生态系统。与此同时,苹果一直在努力发布更全面的AI功能集,其中包括AI驱动的Siri——这一发布最近再次推迟到今年晚些时候。
Q&A
Q1:Gemini的自动化功能具体能做什么?
A:Gemini的自动化功能可以处理多步骤任务,如预订Uber或外卖等。用户可以将待办事项交给Gemini处理,目前支持食品、杂货和共享出行类别的特定应用程序,但功能仍然有限。
Q2:Gemini自动化功能有什么安全保护措施?
A:谷歌为此功能添加了多重保护:首先需要设备所有者明确命令才能启动;执行过程中用户可以实时观看进度并随时停止;自动化操作在安全的虚拟窗口中进行,只能访问有限应用,无法接触设备其他数据。
Q3:哪些设备可以使用Gemini自动化功能?
A:目前这项测试阶段的功能仅限于特定设备上的Gemini应用,包括Pixel 10、Pixel 10 Pro和三星Galaxy S26系列,并且最初仅在美国和韩国提供。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。