我最近在Pixel 10 Pro和Galaxy S26 Ultra上测试了Gemini的新任务自动化功能,这是首次让Gemini能够代替用户使用应用程序。虽然目前功能有限——仅支持少数几个外卖和网约车服务——且仍处于测试阶段,但这确实是一次令人印象深刻的体验。
速度和体验问题
Gemini使用手机的速度远不如人类。如果你急需叫车,自己操作仍然是最快的选择。不过,任务自动化的设计初衷是在后台运行,让用户可以同时做其他事情,甚至在不看手机时也能继续工作。
在我的测试中,订餐用了整整九分钟。虽然可以观看整个过程——屏幕底部会显示Gemini正在执行的操作,比如"为套餐选择第二份照烧鸡肉"——但看着AI在菜单上寻找明显可见的配菜时,确实让人感到焦急。
准确性表现
尽管速度缓慢,但Gemini的准确性令人满意。它会执行任务直到需要确认订单的最后一步,让用户可以检查结果。在我五天的测试中,从未出现过擅自完成订单的情况,而且需要调整的地方很少。
智能理解能力
最让我印象深刻的是它的智能理解能力。我在日历上添加了次日飞往旧金山的航班信息,然后给Gemini一个模糊的指令:"安排一个Uber让我准时到达机场"。由于Gemini可以访问我的邮件和日历,它找到了航班信息,建议11:30或11:45出发(考虑到13:45的航班和我家到机场的距离,这个时间安排很合理),并询问是否要预约其中一个时间。
这种自然语言交互的能力是关键差异所在。与过去十年只能设定计时器和播放音乐的数字助手不同,新的AI助手能够理解自然语言,不会因为你说成"套餐"而不是"餐盘",或者说成"沙拉"而不是"切丝卷心菜"就卡住。
技术实现的局限性
观察Gemini在Uber Eats上点击和滚动,让一个问题变得显而易见:如果专为AI设计应用程序,肯定不会是现在这个样子。现有应用都是为人类设计的,充满了对AI无用的元素——广告、精美图片等。业界正在通过模型上下文协议(MCP)等方式改善这种状况。
AI模型在以人为中心的界面中推理,感觉像是订披萨最不实用、最脆弱的方式。谷歌Android负责人Sameer Samat告诉我,在缺乏MCP或Android应用函数等更robust方法的情况下,Gemini采用了推理方法。也许这个版本的任务自动化是可能性的预览,或者是推动开发者采用其他方法的方式。
尽管笨拙缓慢,但这确实是迈向移动助手新使用方式的重要第一步,非常有前景。
Q&A
Q1:Gemini任务自动化现在能做什么?
A:目前Gemini任务自动化功能有限,仅支持少数几个外卖和网约车服务,如Uber Eats和Uber等。它可以代替用户在这些应用中执行任务,比如订餐、叫车,甚至可以根据日历中的航班信息智能安排机场接送。不过功能仍在测试阶段,速度较慢但准确性不错。
Q2:使用Gemini自动化订餐需要多长时间?
A:根据测试,Gemini完成一次订餐大约需要九分钟,比人工操作慢得多。但这个功能设计为后台运行,用户可以同时做其他事情。它会执行任务直到需要确认订单的最后一步,让用户检查后再完成购买,这种设计比较安全合理。
Q3:Gemini任务自动化的智能程度如何?
A:Gemini展现了不错的智能理解能力,能够访问用户的邮件和日历信息,理解自然语言指令。比如当用户说"安排去机场的车"时,它能自动查找航班信息,计算合理的出发时间,并提供建议。它还能处理菜单中的复杂选项,比如理解两个半份等于一份的数学逻辑。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。