Amazon.com Inc. 今日推出了一款名为 Nova Act 的全新人工智能代理,该代理能够控制网页浏览器并自主执行操作。
这款新的 AI 代理是由 Amazon 新成立的 Amazon AGI 旧金山实验室开发的研究预览版本。该实验室此前在 12 月发布了 Amazon Nova 基础模型。Amazon Nova 最初推出了三个文本生成模型 —— Micro、Lite 和 Pro,具备文本摘要、问答和理解上下文的能力。公司同时还发布了两个能够根据文本和图像输入生成图像和视频的模型,分别名为 Canvas 和 Reel。
公司表示还将通过推出新网站 nova.amazon.com 来扩大 Amazon Nova 的访问范围,开发者和技术爱好者可以在这里探索这些基础模型。
Amazon 人工通用智能高级副总裁 Rohit Prasad 表示:"我们将 Amazon 的前沿智能技术赋予每一位开发者和技术爱好者,让他们能够前所未有地轻松探索 Amazon Nova 的能力。"
Amazon Act 能够代表用户在网页浏览器中完成基本任务,如点击按钮和在输入框中输入文本。随着 AI 代理的发布,Amazon 还扩展了 Nova Act 软件开发工具包 (SDK) 的访问权限。开发者可以利用该工具包构建能够将复杂指令分解为一系列动作的代理,比如"帮我找到从家出发依次访问这三家商店,然后在晚上 6 点左右看电影的最简单路线。"
Amazon 表示,他们希望教会 AI 代理"对用户界面元素具有与人类相同的直觉"。这意味着以与人类相同的方式与网页交互,能够理解图标、表单、网页元素等一切内容,在提出问题或任务时做出类似人类的反应。
在其他大型企业如 Google LLC、OpenAI 和 Anthropic PBC 都在开发日益强大的代理型 AI 解决方案的背景下,Amazon 做出了这一举措。Anthropic 在 10 月推出了其 AI 模型 Claude 的实验版本,该版本可以使用计算机界面,包括网页浏览器。而 Google 在 12 月透露正在测试其旗舰 AI 模型 Gemini 的浏览器控制功能。
Prasad 补充道:"我们创造这种体验是为了激发建设者的灵感,让他们能够使用 Nova 模型快速测试想法,然后在 Amazon Bedrock 中大规模实施。"
Amazon Bedrock 是一项完全托管的 Amazon Web Service Inc. 服务,提供来自公司及其他供应商的云托管前沿 AI 模型访问权限和构建 AI 应用程序的工具。开发者现在可以在 nova.amazon.com 注册下载 Nova Act SDK 或测试各种 Nova 模型。
好文章,需要你的鼓励
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。