我最近在Pixel 10 Pro和Galaxy S26 Ultra上测试了Gemini的新任务自动化功能,这是首次让Gemini能够代替用户使用应用程序。虽然目前功能有限——仅支持少数几个外卖和网约车服务——且仍处于测试阶段,但这确实是一次令人印象深刻的体验。
速度和体验问题
Gemini使用手机的速度远不如人类。如果你急需叫车,自己操作仍然是最快的选择。不过,任务自动化的设计初衷是在后台运行,让用户可以同时做其他事情,甚至在不看手机时也能继续工作。
在我的测试中,订餐用了整整九分钟。虽然可以观看整个过程——屏幕底部会显示Gemini正在执行的操作,比如"为套餐选择第二份照烧鸡肉"——但看着AI在菜单上寻找明显可见的配菜时,确实让人感到焦急。
准确性表现
尽管速度缓慢,但Gemini的准确性令人满意。它会执行任务直到需要确认订单的最后一步,让用户可以检查结果。在我五天的测试中,从未出现过擅自完成订单的情况,而且需要调整的地方很少。
智能理解能力
最让我印象深刻的是它的智能理解能力。我在日历上添加了次日飞往旧金山的航班信息,然后给Gemini一个模糊的指令:"安排一个Uber让我准时到达机场"。由于Gemini可以访问我的邮件和日历,它找到了航班信息,建议11:30或11:45出发(考虑到13:45的航班和我家到机场的距离,这个时间安排很合理),并询问是否要预约其中一个时间。
这种自然语言交互的能力是关键差异所在。与过去十年只能设定计时器和播放音乐的数字助手不同,新的AI助手能够理解自然语言,不会因为你说成"套餐"而不是"餐盘",或者说成"沙拉"而不是"切丝卷心菜"就卡住。
技术实现的局限性
观察Gemini在Uber Eats上点击和滚动,让一个问题变得显而易见:如果专为AI设计应用程序,肯定不会是现在这个样子。现有应用都是为人类设计的,充满了对AI无用的元素——广告、精美图片等。业界正在通过模型上下文协议(MCP)等方式改善这种状况。
AI模型在以人为中心的界面中推理,感觉像是订披萨最不实用、最脆弱的方式。谷歌Android负责人Sameer Samat告诉我,在缺乏MCP或Android应用函数等更robust方法的情况下,Gemini采用了推理方法。也许这个版本的任务自动化是可能性的预览,或者是推动开发者采用其他方法的方式。
尽管笨拙缓慢,但这确实是迈向移动助手新使用方式的重要第一步,非常有前景。
Q&A
Q1:Gemini任务自动化现在能做什么?
A:目前Gemini任务自动化功能有限,仅支持少数几个外卖和网约车服务,如Uber Eats和Uber等。它可以代替用户在这些应用中执行任务,比如订餐、叫车,甚至可以根据日历中的航班信息智能安排机场接送。不过功能仍在测试阶段,速度较慢但准确性不错。
Q2:使用Gemini自动化订餐需要多长时间?
A:根据测试,Gemini完成一次订餐大约需要九分钟,比人工操作慢得多。但这个功能设计为后台运行,用户可以同时做其他事情。它会执行任务直到需要确认订单的最后一步,让用户检查后再完成购买,这种设计比较安全合理。
Q3:Gemini任务自动化的智能程度如何?
A:Gemini展现了不错的智能理解能力,能够访问用户的邮件和日历信息,理解自然语言指令。比如当用户说"安排去机场的车"时,它能自动查找航班信息,计算合理的出发时间,并提供建议。它还能处理菜单中的复杂选项,比如理解两个半份等于一份的数学逻辑。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。