下一波 AI 变革将由智能代理来驱动。这些 AI 工具不再仅仅是回答问题或遵循提示,而是能够执行复杂任务并具有更高的自主性。
随着我们能够将越来越多的任务委托给机器,这将带来诸多改变。通过与外部应用程序连接,智能代理可以处理购物、日程安排、旅行管理以及我们与数字服务的许多日常互动。
Amazon 一直致力于将 AI 引入家庭,Alexa 的声音在全球都很熟悉 (尽管有报道称她主要被用作一个性能过剩的计时器)。
随着智能设备日益充斥家庭,代理型 AI 显然有潜力进一步简化我们与家中技术的交互方式。不过,Amazon 的计划可能更为深远。以下是我们目前所了解的情况,以及对未来智能家居的展望。
什么是 Nova Act?
Amazon 最近成为最新推出代理型 AI 模型的科技巨头,这个模型名为 Nova Act。与 ChatGPT Operator 类似,它可以控制网络浏览器,执行许多我们能做的事情。
当你想到我们日常生活中使用手机应用的频率时,就能明白这项技术对我们生活的影响有多大。
据 Amazon 介绍,Nova Act 能够预订行程、完成在线购物,以及管理日历和待办事项清单。
Nova Act 与 Operator 等竞争平台的一个区别在于,这项技术将被内置到 Alexa 的upcoming 升级中。这可能会带来惊人的效果,使家庭 AI 助手变得更加实用。
当然,对于可能收集我们日常生活中非常私密细节的技术,必须设置一些相当严格的隐私保护措施。
根据 TechCrunch 的报道,Nova Act 在评估代理型 AI 性能的一些关键测试中的表现优于包括 OpenAI 和 Anthropic 在内的竞争对手。
代理型 AI 助手
虽然 Operator 和 Manus 等竞争服务可能已经推出 (与 Nova Act 一样,它们都是研究预览版),但它们并不具备这种进入数百万家庭的潜在途径。
流行的语音助手推动了语音激活计算的主流应用,但它们在集成 ChatGPT 所使用的 LLM 技术方面进展缓慢。
在与语音 LLM 聊天机器人 (如 ChatGPT) 交谈后,再回过头来尝试与 Alexa (或 Siri 等) 进行会话式交互会让人感到沮丧。它们在保持对话或理解细微命令方面明显不够好。
不过,它们擅长与连接的应用程序和服务生态系统协同工作。通过转向代理型技术,Amazon 可以打造既能像 ChatGPT 那样具有对话能力,又能像 Alexa 和 Siri 那样具有与外部服务通信和控制框架的家庭助手。
我们最近看到 Apple 将其 Apple Intelligence 平台集成到 Siri 中,希望这能带来生成式 AI 设备的 "iPhone 时刻"。
Google 采取了略有不同的方式,其 Gemini 聊天机器人作为独立的语音 AI 运行,而不是尝试与现有的 Google Assistant 集成。至少目前是这样。
显然,各大 AI 公司都认为现在是时候让我们开始在家中接纳下一代代理型智能技术了。但这真的是个明智的选择吗?
家庭代理型 AI 的隐患
代理型 AI 具有巨大的变革潜力。因此,在我们确信社会对风险和挑战有充分认识之前,需要解决一些重大问题。
这些问题包括网络安全隐患。每当我们集成新技术,特别是在家庭中时,我们需要确保不会创造出可能被攻击的新漏洞。
还有一个显而易见的隐私问题。长期以来,人们一直担心智能音箱对所听到的个人对话的保护程度。有了自主的、始终活跃的代理,隐私侵犯的风险会更大。
更普遍的是,一些人担心在日常任务中过度依赖 AI 可能导致我们变得过分依赖和无助,甚至可能损害人类的问题解决或决策能力。
我们还应该考虑 AI 幻觉的潜在影响。没有人真正确定 LLM 聊天机器人编造内容的倾向会如何转移和扩展到基于行动的代理系统中,但不难预见事情可能会变得混乱。
不过,我认为代理型 AI 必然会在我们的生活中扮演越来越重要的角色,包括在家庭中。得益于 Echo 和 Alexa 的市场渗透率,Amazon 有着与任何人一样好的机会实现这一目标。
但可以确定的一点是,在 AI 领域,一切都还在博弈中。在不久的将来,随着我们开始更好地理解它可以做什么以及如何帮助我们,更多的服务和设备将在家庭中提供代理型 AI。
好文章,需要你的鼓励
生成式AI在电商领域发展迅速,但真正的客户信任来自可靠的购物体验。数据显示近70%的在线购物者会放弃购物车,主要因为结账缓慢、隐藏费用等问题。AI基础设施工具正在解决这些信任危机,通过实时库存监控、动态结账优化和智能物流配送,帮助商家在售前、售中、售后各环节提升可靠性,最终将一次性买家转化为忠实客户。
泰国SCBX金融集团开发的DoTA-RAG系统通过动态路由和混合检索技术,成功解决了大规模知识库检索中速度与准确性难以兼得的难题。系统将1500万文档的搜索空间缩小92%,响应时间从100秒降至35秒,正确性评分提升96%,为企业级智能问答系统提供了实用的技术方案。
存储供应商Qumulo发布多租户架构Stratus,为每个租户提供独立的虚拟环境,通过加密技术和租户专用密钥管理系统实现隔离。该统一文件和对象存储软件支持本地、边缘、数据中心及AWS、Azure等云环境部署。Stratus采用加密隔离技术确保敏感数据安全,同时提供任务关键操作所需的灵活性和效率,帮助联邦和企业客户满足合规要求。
中科院和字节跳动联合开发了VGR视觉锚定推理系统,突破了传统AI只能粗略"看图"的局限。该系统能在推理过程中主动关注图片关键区域,像人类一样仔细观察细节后再得出结论。实验显示VGR在图表理解等任务上性能大幅提升,同时计算效率更高,代表了多模态AI"可视化推理"的重要进展。