科技巨头们正在推动 AI 技术的边界不断扩展。如果 AI 助手不仅能通过你的视角看世界,还能真正理解世界、提前规划并代你采取行动,会是怎样的场景?随着最新技术的发展,我们正在见证 AI 如何理解和交互物理及数字世界的革命性突破。
通用 AI 助手的黎明
除了 ChatGPT、Claude 和 DeepSeek 等 AI 工具的持续进化,我们还见证了像 Google Project Astra 这样的重大突破。它展示了一个不仅能通过手机和智能眼镜观察理解世界,还能保持上下文感知对话的 AI 系统 - 从讨论美术馆里的艺术品到识别烹饪时的食材。更重要的是,它能记住并引用过去的互动,使对话更自然、更有意义。
我们还看到 Google 的 Project Mariner 引入了代理能力,使 AI 能够自主导航数字界面。Mariner 不只是响应命令,它可以接管浏览器完成复杂任务 - 从预订旅行到管理在线购物车,同时理解并遵循用户偏好。
除了 Google,OpenAI 在 2025 年 1 月发布的 Operate 引入了复杂的规划能力,让 AI 能够提前思考多个步骤。它可以将复杂任务分解为逻辑序列,预测潜在障碍,并实时调整方法 - 就像人类助手一样。
组合能力的力量
当我们将不同类型的 AI 能力结合时,这些系统的真正潜力才会显现。想象一个 AI 助手,它结合了 Astra 的环境感知、Mariner 的数字导航能力和 Operate 的高级规划能力。这种组合可以创造出真正理解并能在物理和数字世界无缝运作的助手。
改变日常生活
实际应用令人震惊。你的 AI 助手可以通过智能眼镜发现咖啡库存不足,自动订购你喜欢的品牌,并根据你的日程表调整配送时间。在早晨通勤时,它可能会发现前方交通拥堵,重新安排会议,建议替代路线,同时自动起草适当的信息通知受影响的同事。
在厨房里,它可以观察你烹饪,通过智能眼镜提供实时指导,并根据你使用的食材自动调整购物清单。它甚至可能根据你的饮食偏好和现有食材开始建议食谱修改。
革新工作场所
在专业环境中的影响可能更加深远。这些通用助手可以改变从客户服务到复杂项目管理的一切。通用 AI 助手可以同时处理多个客户互动,导航内部系统,生成文档,并确保符合公司政策 - 同时保持自然、类人的互动方式。
想象一下,在客户会议期间戴着智能眼镜,你的 AI 助手同时转录对话,在讨论相关话题时调出相关文档,并在后台开始起草后续建议。
对于医疗专业人员,这些系统可以提供实时访问患者病历,同时更新医疗记录并检查药物相互作用 - 同时严格遵守隐私法规。在零售领域,AI 助手可以处理复杂的客户服务场景,同时管理库存和供应链运营。
竞争推动创新
通过设备全天候访问代理平台,拥有自己的个性化超级助手随时帮助处理日常任务的想法确实很吸引人。
我认为这种真正有用、灵活和强大的工具可能是 AI 时代早期的"杀手级应用"。
由于拥有庞大的应用生态系统,如 Maps、Calendar 和广受欢迎的 Chrome 浏览器,Google 在这个领域显然占据优势地位。通过访问这些应用,AI 已经有很多方式开始让用户的生活更轻松。然而,OpenAI 和 Microsoft 等竞争对手也在大力投资他们自己的代理平台,他们可能也会有一些独特的创新。
随着我们深入 2025 年,全球科技巨头之间的竞争只会加剧,推动前所未有的创新。
下一个前沿
赋予代理访问和使用外部应用程序和服务的能力意味着它们很快就能执行更复杂的操作。这可能包括控制自动驾驶车辆或操作任何类型的机器人设备。它们甚至可以成为整栋建筑的机器人管理员 - 管理环境控制、识别需要维修的地方并维护安全。
通过让机器人和机器能够相互通信,无论它们是否具有正确的接口技术或 API 设置,仅通过自然语言交谈就能带来各种好处。
因此,许多人将通用 AI 代理视为实现"通用 AI"这一未来目标的一步也就不足为奇了 - 这种 AI 能够像我们一样学习完成任何任务,而不是被设计来执行单一工作。
当然,所有这些都引发了一些重要问题:究竟应该给予 AI 多大的权力和权限。
让计算机具有在人类指令之外或绕过人类指令思考的能力,可以理解地让一些人认为我们应该深思熟虑。
但随着创建第一个日常代理 AI 框架的竞赛全面展开,我们最好快点思考这些问题。
好文章,需要你的鼓励
谷歌发布代理支付协议AP2,支持AI代理代表用户自动购物和决策。该开放协议获得60多家商户和金融机构支持,旨在实现AI平台、支付系统和供应商间的互操作性。协议要求两级审批机制:意图授权和购物车授权,确保交易可追溯。支持全自动购买和加密货币支付。万事达、美国运通、PayPal等主要金融服务商已表示支持。
腾讯混元团队推出P3-SAM系统,这是首个能够自动精确分割任意3D物体的AI模型。该系统采用原生3D处理方式,摆脱了传统方法对2D投影的依赖,在近370万个3D模型上训练而成。P3-SAM支持完全自动分割和交互式分割两种模式,在多个标准测试中达到领先性能,为游戏开发、工业设计等领域提供了强大的3D理解工具。
CrowdStrike在其年度Fal.Con 2025大会上发布了智能代理安全平台和智能代理安全团队两款新产品,旨在应对AI时代日益增长的安全需求。新平台基于企业图谱架构,统一企业遥测数据,配备AI优化查询语言。Charlotte AI AgentWorks提供无代码平台,让安全团队可轻松构建和部署可信安全代理。智能代理安全团队则通过AI驱动的代理直接服务客户,解决传统防御无法应对AI速度威胁的问题。
NVIDIA Research推出了革命性的UDR系统,让用户可以完全自定义AI研究助手的工作策略。该系统解决了传统研究工具固化、难以专业化定制的问题,支持任意语言模型,用户可用自然语言编写研究策略,系统自动转换为可执行代码。提供三种示例策略和直观界面,实现了AI工具的民主化定制,为专业研究和个人调研提供了前所未有的灵活性。