下一波 AI 变革将由智能代理来驱动。这些 AI 工具不再仅仅是回答问题或遵循提示,而是能够执行复杂任务并具有更高的自主性。
随着我们能够将越来越多的任务委托给机器,这将带来诸多改变。通过与外部应用程序连接,智能代理可以处理购物、日程安排、旅行管理以及我们与数字服务的许多日常互动。
Amazon 一直致力于将 AI 引入家庭,Alexa 的声音在全球都很熟悉 (尽管有报道称她主要被用作一个性能过剩的计时器)。
随着智能设备日益充斥家庭,代理型 AI 显然有潜力进一步简化我们与家中技术的交互方式。不过,Amazon 的计划可能更为深远。以下是我们目前所了解的情况,以及对未来智能家居的展望。
什么是 Nova Act?
Amazon 最近成为最新推出代理型 AI 模型的科技巨头,这个模型名为 Nova Act。与 ChatGPT Operator 类似,它可以控制网络浏览器,执行许多我们能做的事情。
当你想到我们日常生活中使用手机应用的频率时,就能明白这项技术对我们生活的影响有多大。
据 Amazon 介绍,Nova Act 能够预订行程、完成在线购物,以及管理日历和待办事项清单。
Nova Act 与 Operator 等竞争平台的一个区别在于,这项技术将被内置到 Alexa 的upcoming 升级中。这可能会带来惊人的效果,使家庭 AI 助手变得更加实用。
当然,对于可能收集我们日常生活中非常私密细节的技术,必须设置一些相当严格的隐私保护措施。
根据 TechCrunch 的报道,Nova Act 在评估代理型 AI 性能的一些关键测试中的表现优于包括 OpenAI 和 Anthropic 在内的竞争对手。
代理型 AI 助手
虽然 Operator 和 Manus 等竞争服务可能已经推出 (与 Nova Act 一样,它们都是研究预览版),但它们并不具备这种进入数百万家庭的潜在途径。
流行的语音助手推动了语音激活计算的主流应用,但它们在集成 ChatGPT 所使用的 LLM 技术方面进展缓慢。
在与语音 LLM 聊天机器人 (如 ChatGPT) 交谈后,再回过头来尝试与 Alexa (或 Siri 等) 进行会话式交互会让人感到沮丧。它们在保持对话或理解细微命令方面明显不够好。
不过,它们擅长与连接的应用程序和服务生态系统协同工作。通过转向代理型技术,Amazon 可以打造既能像 ChatGPT 那样具有对话能力,又能像 Alexa 和 Siri 那样具有与外部服务通信和控制框架的家庭助手。
我们最近看到 Apple 将其 Apple Intelligence 平台集成到 Siri 中,希望这能带来生成式 AI 设备的 "iPhone 时刻"。
Google 采取了略有不同的方式,其 Gemini 聊天机器人作为独立的语音 AI 运行,而不是尝试与现有的 Google Assistant 集成。至少目前是这样。
显然,各大 AI 公司都认为现在是时候让我们开始在家中接纳下一代代理型智能技术了。但这真的是个明智的选择吗?
家庭代理型 AI 的隐患
代理型 AI 具有巨大的变革潜力。因此,在我们确信社会对风险和挑战有充分认识之前,需要解决一些重大问题。
这些问题包括网络安全隐患。每当我们集成新技术,特别是在家庭中时,我们需要确保不会创造出可能被攻击的新漏洞。
还有一个显而易见的隐私问题。长期以来,人们一直担心智能音箱对所听到的个人对话的保护程度。有了自主的、始终活跃的代理,隐私侵犯的风险会更大。
更普遍的是,一些人担心在日常任务中过度依赖 AI 可能导致我们变得过分依赖和无助,甚至可能损害人类的问题解决或决策能力。
我们还应该考虑 AI 幻觉的潜在影响。没有人真正确定 LLM 聊天机器人编造内容的倾向会如何转移和扩展到基于行动的代理系统中,但不难预见事情可能会变得混乱。
不过,我认为代理型 AI 必然会在我们的生活中扮演越来越重要的角色,包括在家庭中。得益于 Echo 和 Alexa 的市场渗透率,Amazon 有着与任何人一样好的机会实现这一目标。
但可以确定的一点是,在 AI 领域,一切都还在博弈中。在不久的将来,随着我们开始更好地理解它可以做什么以及如何帮助我们,更多的服务和设备将在家庭中提供代理型 AI。
好文章,需要你的鼓励
Coursera在2025年连接大会上宣布多项AI功能更新。10月将推出角色扮演功能,通过AI人物帮助学生练习面试技巧并获得实时反馈。新增AI评分系统可即时批改代码、论文和视频作业。同时引入完整性检查和监考系统,通过锁定浏览器和真实性验证打击作弊行为,据称可减少95%的不当行为。此外,AI课程构建器将扩展至所有合作伙伴,帮助教育者快速设计课程。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
英国政府研究显示,神经多样性员工从AI聊天机器人中获得的收益远超普通同事。在Microsoft 365 Copilot试点中,神经多样性员工满意度达90%置信水平,推荐度达95%置信水平,均显著高于其他用户。患有ADHD和阅读障碍的员工表示AI工具为他们提供了前所未有的工作支持,特别是在报告撰写方面。研究表明,AI工具正在填补传统无障碍技术未能解决的职场差距,为残障人士提供了隐形的工作辅助。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。