Amazon.com Inc. 今日推出了一款名为 Nova Act 的全新人工智能代理,该代理能够控制网页浏览器并自主执行操作。
这款新的 AI 代理是由 Amazon 新成立的 Amazon AGI 旧金山实验室开发的研究预览版本。该实验室此前在 12 月发布了 Amazon Nova 基础模型。Amazon Nova 最初推出了三个文本生成模型 —— Micro、Lite 和 Pro,具备文本摘要、问答和理解上下文的能力。公司同时还发布了两个能够根据文本和图像输入生成图像和视频的模型,分别名为 Canvas 和 Reel。
公司表示还将通过推出新网站 nova.amazon.com 来扩大 Amazon Nova 的访问范围,开发者和技术爱好者可以在这里探索这些基础模型。
Amazon 人工通用智能高级副总裁 Rohit Prasad 表示:"我们将 Amazon 的前沿智能技术赋予每一位开发者和技术爱好者,让他们能够前所未有地轻松探索 Amazon Nova 的能力。"
Amazon Act 能够代表用户在网页浏览器中完成基本任务,如点击按钮和在输入框中输入文本。随着 AI 代理的发布,Amazon 还扩展了 Nova Act 软件开发工具包 (SDK) 的访问权限。开发者可以利用该工具包构建能够将复杂指令分解为一系列动作的代理,比如"帮我找到从家出发依次访问这三家商店,然后在晚上 6 点左右看电影的最简单路线。"
Amazon 表示,他们希望教会 AI 代理"对用户界面元素具有与人类相同的直觉"。这意味着以与人类相同的方式与网页交互,能够理解图标、表单、网页元素等一切内容,在提出问题或任务时做出类似人类的反应。
在其他大型企业如 Google LLC、OpenAI 和 Anthropic PBC 都在开发日益强大的代理型 AI 解决方案的背景下,Amazon 做出了这一举措。Anthropic 在 10 月推出了其 AI 模型 Claude 的实验版本,该版本可以使用计算机界面,包括网页浏览器。而 Google 在 12 月透露正在测试其旗舰 AI 模型 Gemini 的浏览器控制功能。
Prasad 补充道:"我们创造这种体验是为了激发建设者的灵感,让他们能够使用 Nova 模型快速测试想法,然后在 Amazon Bedrock 中大规模实施。"
Amazon Bedrock 是一项完全托管的 Amazon Web Service Inc. 服务,提供来自公司及其他供应商的云托管前沿 AI 模型访问权限和构建 AI 应用程序的工具。开发者现在可以在 nova.amazon.com 注册下载 Nova Act SDK 或测试各种 Nova 模型。
好文章,需要你的鼓励
谷歌推出类似苹果私有云计算的新平台,让用户在享受先进AI功能的同时保护数据隐私。该平台将复杂AI请求转移到云端处理,确保敏感数据仅用户可见,连谷歌也无法访问。随着AI工具需要更强计算能力,这一方案平衡了隐私保护与性能需求。Pixel 10手机将获得更智能的Magic Cue建议和更多语言的录音转录功能。
StepFun团队开发了革命性的Mind-Paced Speaking技术,让AI聊天机器人首次具备边思考边说话的能力。通过双大脑架构,分别负责思考和表达的两个AI模型协同工作,实现零延迟响应的同时保持92.8%的高准确率。这项技术模拟人类大脑机制,让AI对话变得自然流畅,为人机交互开创了全新范式。
OpenAI宣布推出GPT-5的首个重大升级版本GPT-5.1,包含Instant和Thinking两个变体。新模型在对话风格上更加自然温暖,具备自适应推理能力,能根据问题复杂度调整思考深度。GPT-5.1提供八种个性化对话模式供用户选择,减少专业术语使用,提升易理解性。该升级旨在解决GPT-5发布后用户反馈的不足,将逐步向订阅用户推出。
微软和哥伦比亚大学联合开发了名为Dyna-Mind的AI训练框架,通过两阶段训练教会AI进行"心理模拟"。该框架让AI学会在行动前进行虚拟试错,显著提升了在复杂规划任务中的表现。在推箱子、虚拟家庭任务和安卓设备操作等测试中,成功率分别达到82.5%、92.5%和40.7%,远超传统方法。这项研究为开发更智能的AI助手奠定了基础。