Amazon Nova Act 重磅发布:挑战 OpenAI、Microsoft 和 Salesforce 的全新 AI 代理 SDK

亚马逊推出Nova Act AI代理SDK,这是一个用于构建可自主完成网络任务的AI代理的开发工具包。它由亚马逊自研的Nova大语言模型驱动,采用细粒度任务分解和直接浏览器操作等方法,旨在提高AI代理的可靠性。该SDK开源,但仅支持亚马逊Nova模型。这标志着亚马逊在AI代理领域向OpenAI、微软等竞争对手发起挑战。

沉睡的巨人已经觉醒!

一段时间以来,亚马逊似乎一直在追赶竞争者,致力于为其用户——尤其是建立在 Amazon Web Services (AWS) 云基础设施之上的数百万开发者——提供具有竞争力的自主 AI 模型和工具。

然而,在 2024 年末,亚马逊推出了自家的内部基础模型家族 Amazon Nova,该家族具备文本、图像甚至视频生成能力;并且在上个月,亚马逊推出了一款部分由 Anthropic 的 Claude 模型家族支持的全新 Amazon Alexa 语音助手。

紧接着,本周一,这家电商及云计算巨头的通用人工智能部门 Amazon AGI 宣布推出 Amazon Nova Act,这是一个实验性的开发者工具包,旨在构建能够自主浏览网络并完成任务的 AI 代理,其核心由亚马逊 Nova 大语言模型 (LLM) 的定制专有版本提供支持。哦,对了,这个标准开发者工具包 (SDK) 是在 Apache 2.0 开源许可下发布的,不过该 SDK 仅设计用于亚马逊内部定制的 Nova 模型,而无法用于第三方模型。

其目标是让第三方开发者能够构建出能在网页浏览器中可靠执行任务的 AI 代理。

那么,亚马逊的 Nova Act 与市场上其他代理构建平台(例如 Microsoft 的 AutoGen、Salesforce 的 Agentforce,以及最近 OpenAI 发布的开源 Agents SDK)相比究竟如何?

不同且更为深思熟虑的 AI 代理方式

自从大语言模型 (LLM) 公开崛起以来,大多数“代理”系统仅限于以自然语言作出响应或通过查询知识库提供信息。

Nova Act 是整个行业向基于行为的代理转变中的一部分——这种系统能够在数字环境中,代表用户完成实际任务。OpenAI 新推出的 Responses API 就是一个领先的例子,它为用户提供了访问自主浏览器导航功能的能力,开发者可以通过 OpenAI Agents SDK 将这一功能集成到 AI 代理中。

亚马逊 AGI 强调,目前的代理系统虽然颇具前景,但在可靠性方面存在短板,且在处理多步骤或复杂工作流程时往往需要人工监管。

Nova Act 正是针对这些局限性而设计,提供了一系列原子性、可指令的命令,这些命令能够串联成一个可靠的工作流程。

亚马逊技术成员 Deniz Birlikci 在一段介绍 Nova Act 的视频中描述了这一更宏大的愿景:不久之后,在线浏览网页的 AI 代理数量将超过实际浏览的用户,替用户执行各项任务。

亚马逊自主团队副总裁兼 AGI SF 实验室主管 David Luan 在近期与 VentureBeat 的视频通话访谈中更直截了当地阐述了这一使命:“我们创建了这一全新的实验性 AI 模型,经过训练后能够在网页浏览器中执行操作。根本上来说,我们认为代理是计算的基本构件,”他说。

Luan 曾是 Adept AI 的联合创始人兼 CEO,并于 2024 年通过人才收购的方式加入亚马逊。Luan 表示,他一直是 AI 代理的坚定支持者。“在 Adept,我们是第一批真正开始研究 AI 代理的公司。如今,人人都认识到代理的重要性,能够稍微领先时代一点,真让人感到兴奋,”他补充道。

Nova Act 为开发者提供的功能

Nova Act SDK 为开发者提供了一个框架,可以利用自然语言提示将复杂的网页自动化任务拆分为明确可控的步骤,从而构建基于网页的自动化代理。

与那些依靠单一提示尝试一气呵成完成整个工作流程、因而往往表现不稳定的 LLM 驱动代理不同,Nova Act 的设计理念是逐步执行较小且可验证的任务。

Nova Act 的一些主要特性包括:

细粒度任务分解:

开发者可以将复杂的数字工作流程拆分成多个较小的 act() 调用,每个调用用于指导代理执行特定的用户界面交互。

通过 Playwright 直接操控浏览器:

Nova Act 与由 Microsoft 开发的开源浏览器自动化框架 Playwright 集成。Playwright 允许开发者以编程方式控制网页浏览器——执行点击、填写表单、页面导航等操作——而不仅完全依赖 AI 预测。该集成对于处理诸如输入密码或信用卡信息等敏感任务尤为有用。例如,开发者可以指示 Nova Act 只聚焦于密码输入字段,然后通过 Playwright API 安全地输入密码,而无需将敏感信息传递给模型,从而提升自动化网页交互时的安全和隐私保护。

Python 集成:

该 SDK 允许开发者将 Python 代码与 Nova Act 命令交织使用,包括断点、断言或利用线程池进行并行执行等标准 Python 工具。

结构化信息提取:

通过 Pydantic 模型,该 SDK 支持结构化数据提取,使代理能够将屏幕内容转换成结构化格式。

并行化与调度:

开发者可以同时运行多个 Nova Act 实例,并调度自动化工作流程,无需持续的人工干预。

Luan 强调,Nova Act 是专为开发者设计的工具,而非供娱乐的通用聊天机器人。“Nova Act 是为开发者打造的工具,它并不是一个可以随意聊天的机器人,而是用来让开发者构建实用产品的,”他说。

例如,亚马逊文档中展示的一个示例工作流程说明了 Nova Act 如何自动化公寓搜索:通过抓取租赁列表、计算到火车站的骑行距离,最终将结果整理成结构化表格。

另一个展示的例子则利用 Nova Act 每周二全自动、无须手动操作地从 Sweetgreen 订购特定沙拉,充分说明了开发者如何以一种既可靠又可定制的方式自动化重复性的数字任务。

基准性能与对可靠性的关注

亚马逊此次发布的核心信息是:可靠性,而不仅仅是智能,是普及代理应用的主要障碍。

据亚马逊介绍,目前最先进的模型在驱动 AI 代理方面相当脆弱,在基于浏览器的多步骤任务中,其代理成功率通常仅有 30% 到 60%。

而 Nova Act 则强调构件化方法,在一些对其他模型构成挑战的任务(如与下拉菜单、日期选择器或弹出窗口交互)的内部测试中,其得分超过 90%。

Luan 强调了为何可靠性至关重要,“我们真正关注的是如何让代理变得可靠。如果你让它去更新 Salesforce 中的一条记录,但它每十次操作中就有一次把你的数据库删掉,那你大概再也不会用它了。”

亚马逊 AGI 将 Nova Act 与包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 CUA 模型在内的竞争对手进行了对比测试。在 ScreenSpot Web Text 基准测试中(用于测试对文本屏幕元素的指令遵循情况),Nova Act 获得了 0.939 的得分,优于 Claude 3.7 Sonnet(0.900)和 OpenAI CUA(0.883)。

在专注于视觉用户界面元素的 ScreenSpot Web Icon 基准测试中,Nova Act 同样达到了 0.879 的得分,再次领先于其他模型。

不过,在测试一般用户界面交互的 GroundUI Web 基准测试中,Nova Act 的得分为 0.805,略逊于其他竞争模型。

上述分数均由亚马逊在内部使用一致的提示和评估标准测量得出。

亚马逊还强调了 Nova Act 在超出标准环境泛化能力方面的初步成果。

例如,团队成员 Rick Liu 展示了该代理如何在未经明确训练的情况下与一款以鸽子为主题的网页游戏成功互动——完成属性分配、对战并推动游戏进程。

Luan 表示,这种泛化能力正是其长期愿景的核心所在,“我们推出 Nova Act 的目标是成为一款通用的浏览器使用解决方案,我们希望能有一个代理替你在电脑上完成任何你想做的事情。”

适用于不同云环境,但依赖于亚马逊的 Nova 模型

尽管 Nova Act 通过 nova.amazon.com 面向全球开发者开放,Luan 也明确指出,该系统与亚马逊内部的 Nova 基础模型紧密耦合。

与 OpenAI 的 Agents SDK 不同,开发者无法接入外部大语言模型,如 OpenAI 的 GPT-4 或 Anthropic 的 Claude 3.7 Sonnet;而在一定程度上,Microsoft 的 AutoGen 和 Salesforce 的 Agentforce 平台允许切换到不同供应商和模型家族。

“Nova Act 是 Nova 模型的定制训练版本,”他说。“它不像是只搭建在通用大语言模型之上的框架,而是经过专门训练,能够在互联网上替你执行操作。”

不过,Nova Act 并不局限于 AWS 环境。开发者可以下载该 SDK,并在本地、云端或任意平台上运行。“你不必一定要在 AWS 上使用它,”Luan 表示。

因此,对于那些希望其代理具备最高底层模型灵活性的企业来说,Nova Act 可能并非最佳选择;然而,对于那些寻求专门设计用于浏览网页、能够在拥有各种不同用户界面的网站上执行操作的解决方案的企业来说——尤其是如果你已经融入了亚马逊或 AWS 开发者生态系统——这款产品则值得一试。

安全性、许可与定价

Nova Act SDK 根据 Apache License, Version 2.0(2004 年 1 月版)发布,这是一个开源许可。但该许可仅适用于 SDK 软件部分。

Nova Act 模型及其权重和训练数据均为专有且闭源。正如 Luan 解释的,这种做法是有意为之,因为该模型与 SDK 紧密集成并共同训练,以实现高可靠性。

在推出初期,Nova Act 以免费研究预览版形式提供。目前尚未公布生产环境使用的定价。

Luan 将这一阶段描述为开发者试验和构建技术的机会,“我们相信,大多数最有用的代理产品尚未诞生。我们希望让任何人都能构建真正有用的代理,无论是为自己还是作为产品。”

从长期来看,亚马逊计划引入适合生产环境的条款,包括基于使用量的计费和扩展性保证,但这些目前尚未推出。

Nova Act 的未来展望

Nova Act 的发布彰显了亚马逊的宏大愿景:使基于行动的 AI 代理成为计算的基础构件。

Luan 总结了未来的机会:“我个人的梦想是让代理成为计算的构件,最酷的新创业公司和产品正建立在我们团队正在开发的这一技术之上。”

目前,开发者可通过亚马逊官网及 GitHub 获取 Nova Act SDK,并用于实验与原型制作。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

04/05

16:57

分享

点赞

邮件订阅