Opera 网页浏览器现在推出了"代理式 AI"功能,用户可以要求内置的 AI 模型执行一系列浏览器操作任务。
这基本上相当于将网页浏览任务委托给一个能力有限但可以处理某些事情的个人助理。虽然作为技术演示可能很有趣,但说实话,这有点夸张。
这个被称为"Browser Operator"的 AI 代理可以完成诸如查找 12 双男士 10 码 Nike 袜子等购物任务。在 Opera 制作的演示视频中(部分内容以 6 倍速播放),展示了用户只需要输入购买内衣的请求,而不是在网页上四处点击。
在给出的示例中,AI 通过浏览器聊天侧边栏完成了八个步骤,代替用户在网页显示窗格中进行点击和导航,最终到达 Walmart 的结账页面,并将两包共六双袜子添加到用户的购物车中,随时可以付款。
当然,你也可以在 15 秒内访问 Walmart 在线商店并点击几下就能完成同样的操作。不过这样一来,你的 AI 代理就失业了,这倒是挺讽刺的。
视频中还展示了其他任务,如查找特定音乐会门票和预订从奥斯陆到纽卡斯尔的机票,播放速度从 4 倍到 10 倍不等,最后由用户授权实际购买。
Browser Operator 的实际运行速度比视频中显示的要慢,不过这对于一个半自动助手来说反而是有帮助的。较慢的节奏允许用户随时介入并接管控制。
Opera Software 的执行副总裁 Krystian Kolondra 在一份声明中说:"30 多年来,浏览器让你能够访问网络,但从未能为你完成具体任务。"这种说法似乎忽视了解析现代 HTML 页面(包含 CSS 和 JavaScript)所需的数十亿个 CPU 周期。
"现在可以了。这与我们之前看到或发布的任何功能都不同。今天我们展示的 Browser Operator 标志着浏览器角色的首次转变,从显示引擎转变为能够为用户执行任务的代理应用程序。"
"现在可以了"实际上意味着"现在部分用户可以使用"—— Browser Operator 目前是一个预览功能,只有部分用户可以访问,尚未普遍可用。当我们在设置和标志菜单中寻找启用选项时,最新的 macOS 版 Opera 和 Opera Developer 版本都尚未支持 Browser Operator。
据该公司称,Browser Operator 将在不久的将来通过公司的 AI 功能发布计划推出。
据 Opera 称,Browser Operator 在本地运行。"它通过不依赖浏览会话的截图或视频捕获,也不依赖云端或虚拟机中运行的浏览器版本来保护用户隐私。"开发者如此声称。
其 Aria 设置页面包含以下警告:"AI 服务不应用于任何法律、医疗或咨询目的。我们建议您保持谨慎并核实事实。"
OpenAI 和 Anthropic 都发布了面向代理的服务,具体包括 OpenAI Operator 和 Anthropic 的 Claude 3.7 和 3.5 Sonnet 计算机使用 API。
令人惊讶的是,《华尔街日报》在 1 月份报道称,一些公司实际上正在使用 AI 代理。
Gartner 上周预测,在未来几年内,AI 代理将在企业运营中发挥重要作用。该 IT 咨询公司表示:"到 2028 年,Gartner 预测 33% 的企业软件应用程序将包含代理式 AI,而 2024 年这一比例不到 1%,至少 15% 的日常工作决策将通过 AI 代理自主完成。"
请记住,Gartner 此前也出现过错误预测。2014 年,Gartner 研究总监 Peter Sondergaard 预测"到 2025 年,三分之一的工作将被软件、机器人和智能机器取代。"仅仅三年后,Gartner 就改口说 AI 创造的工作岗位将多于它消除的岗位。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。