Gemini的任务自动化功能现已推出,Galaxy S26 Ultra是首批支持该功能的设备之一。
几周前,谷歌和三星宣布了一项重大的Gemini功能,即将登陆其最新设备:任务自动化。该功能首先从外卖和打车应用开始,Gemini能够代替用户在虚拟窗口中使用特定应用程序,处理点餐或预约机场接送等事务,这一切都只需简单的语音指令。这些正是我们多年来一直期待AI助手能够实现的功能。
当我首次开始测试S26 Ultra时,这项功能尚未上线,但刚刚作为系统更新的一部分以测试版形式推出。看着自己的手机自主操作,真是一种奇妙的体验!
我给出的第一个指令很简单:预约优步去机场。Gemini询问了具体哪个机场(这是个很好的问题!),然后自主完成了几个步骤:添加目的地,并选择跳过指定航空公司的步骤,因为我当地机场都在同一个航站楼,所以这个步骤并不重要。正如承诺的那样,系统在最后一步前暂停,提示我在提交叫车请求前检查详细信息。
用户可以选择观看Gemini执行各个步骤,并且随时可以接管控制权或停止自动化操作。
一个更模糊且稍微复杂的请求——订购咖啡和羊角包——需要我提供更多输入信息,Gemini花费了大量时间浏览星巴克的热饮选项,但最终确实在菜单上找到了平白咖啡。它还面临一个关键决定:羊角包是要加热的巧克力羊角包,还是直接从糕点柜取出的?在没有我输入的情况下,它正确地指定糕点应该加热。对于一个一年前还会就我日历上的航班细节与我争论的助手来说,这确实令人印象深刻。
我还需要对这个自动化功能进行更多测试,计划在接下来的几天里给它一些挑战。不过,看到这项功能在实际应用中按预期工作,确实令人印象深刻——至少到目前为止是这样的。
Q&A
Q1:Gemini的任务自动化功能具体能做什么?
A:Gemini能够代替用户在虚拟窗口中使用特定应用程序,处理外卖订餐、打车预约等任务,用户只需给出简单的语音指令即可。目前主要支持外卖和打车应用,未来会扩展到更多应用。
Q2:使用Gemini自动化时能否中途控制?
A:是的,用户可以选择观看Gemini执行各个步骤的过程,并且随时可以接管控制权或停止自动化操作。系统会在关键步骤(如最终确认)前暂停,让用户检查详细信息。
Q3:哪些设备支持Gemini的任务自动化功能?
A:Galaxy S26 Ultra是首批支持该功能的设备之一。该功能目前以测试版形式通过系统更新推出,是谷歌和三星合作开发的最新Gemini功能。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。