下一波 AI 变革将由智能代理来驱动。这些 AI 工具不再仅仅是回答问题或遵循提示,而是能够执行复杂任务并具有更高的自主性。
随着我们能够将越来越多的任务委托给机器,这将带来诸多改变。通过与外部应用程序连接,智能代理可以处理购物、日程安排、旅行管理以及我们与数字服务的许多日常互动。
Amazon 一直致力于将 AI 引入家庭,Alexa 的声音在全球都很熟悉 (尽管有报道称她主要被用作一个性能过剩的计时器)。
随着智能设备日益充斥家庭,代理型 AI 显然有潜力进一步简化我们与家中技术的交互方式。不过,Amazon 的计划可能更为深远。以下是我们目前所了解的情况,以及对未来智能家居的展望。
什么是 Nova Act?
Amazon 最近成为最新推出代理型 AI 模型的科技巨头,这个模型名为 Nova Act。与 ChatGPT Operator 类似,它可以控制网络浏览器,执行许多我们能做的事情。
当你想到我们日常生活中使用手机应用的频率时,就能明白这项技术对我们生活的影响有多大。
据 Amazon 介绍,Nova Act 能够预订行程、完成在线购物,以及管理日历和待办事项清单。
Nova Act 与 Operator 等竞争平台的一个区别在于,这项技术将被内置到 Alexa 的upcoming 升级中。这可能会带来惊人的效果,使家庭 AI 助手变得更加实用。
当然,对于可能收集我们日常生活中非常私密细节的技术,必须设置一些相当严格的隐私保护措施。
根据 TechCrunch 的报道,Nova Act 在评估代理型 AI 性能的一些关键测试中的表现优于包括 OpenAI 和 Anthropic 在内的竞争对手。
代理型 AI 助手
虽然 Operator 和 Manus 等竞争服务可能已经推出 (与 Nova Act 一样,它们都是研究预览版),但它们并不具备这种进入数百万家庭的潜在途径。
流行的语音助手推动了语音激活计算的主流应用,但它们在集成 ChatGPT 所使用的 LLM 技术方面进展缓慢。
在与语音 LLM 聊天机器人 (如 ChatGPT) 交谈后,再回过头来尝试与 Alexa (或 Siri 等) 进行会话式交互会让人感到沮丧。它们在保持对话或理解细微命令方面明显不够好。
不过,它们擅长与连接的应用程序和服务生态系统协同工作。通过转向代理型技术,Amazon 可以打造既能像 ChatGPT 那样具有对话能力,又能像 Alexa 和 Siri 那样具有与外部服务通信和控制框架的家庭助手。
我们最近看到 Apple 将其 Apple Intelligence 平台集成到 Siri 中,希望这能带来生成式 AI 设备的 "iPhone 时刻"。
Google 采取了略有不同的方式,其 Gemini 聊天机器人作为独立的语音 AI 运行,而不是尝试与现有的 Google Assistant 集成。至少目前是这样。
显然,各大 AI 公司都认为现在是时候让我们开始在家中接纳下一代代理型智能技术了。但这真的是个明智的选择吗?
家庭代理型 AI 的隐患
代理型 AI 具有巨大的变革潜力。因此,在我们确信社会对风险和挑战有充分认识之前,需要解决一些重大问题。
这些问题包括网络安全隐患。每当我们集成新技术,特别是在家庭中时,我们需要确保不会创造出可能被攻击的新漏洞。
还有一个显而易见的隐私问题。长期以来,人们一直担心智能音箱对所听到的个人对话的保护程度。有了自主的、始终活跃的代理,隐私侵犯的风险会更大。
更普遍的是,一些人担心在日常任务中过度依赖 AI 可能导致我们变得过分依赖和无助,甚至可能损害人类的问题解决或决策能力。
我们还应该考虑 AI 幻觉的潜在影响。没有人真正确定 LLM 聊天机器人编造内容的倾向会如何转移和扩展到基于行动的代理系统中,但不难预见事情可能会变得混乱。
不过,我认为代理型 AI 必然会在我们的生活中扮演越来越重要的角色,包括在家庭中。得益于 Echo 和 Alexa 的市场渗透率,Amazon 有着与任何人一样好的机会实现这一目标。
但可以确定的一点是,在 AI 领域,一切都还在博弈中。在不久的将来,随着我们开始更好地理解它可以做什么以及如何帮助我们,更多的服务和设备将在家庭中提供代理型 AI。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。