过去一年,企业级 AI 智能体开发平台呈爆发式增长,其中低代码开发平台尤受欢迎。随着各组织机构的智能体生态系统不断发展,大型模型提供商开始着手开发一体化的智能体创建和管理平台也就不足为奇了。
基于这一背景,Google 今天宣布扩展其智能体产品线,以应对其他智能体开发平台的竞争。Google 表示,其新推出的智能体开发套件 (ADK) 及其他新增功能可以让用户更好地控制智能体的行为。
该公司称,ADK 简化了在 Gemini 模型上构建多智能体系统的过程。Google 声称用户可以"用不到 100 行直观的代码构建 AI 智能体"。该平台还支持由 Anthropic 开发的模型上下文协议 (MCP),这一数据连接协议有助于标准化智能体之间的数据传输。
Google 表示 ADK 将帮助组织: - 通过编排控制和防护机制来塑造智能体的思考、推理和协作方式 - 利用 ADK 独特的双向音视频流功能实现"类人对话交互" - 通过现成的示例智能体和工具加速开发 - 从 Google 的模型库中选择最适合的模型 - 选择部署目标,可以是 Kubernetes 或 Google 的 Vertex AI - 通过 Vertex AI 直接部署智能体到生产环境
虽然 ADK 针对 Gemini 模型进行了优化,但 Vertex AI 允许访问来自 Anthropic、Meta、Mistral、AI21 Labs、CAMB.AI 和 Qodo 的模型。Google 表示开发者可以使用 ADK 将智能体和应用程序响应与不同的数据连接器相结合。
更多智能体支持功能
Google 还推出了 Agent Engine,这是一个与 ADK 并行的托管运行时仪表板,具有企业级控制功能。
在新闻发布会上,Google 向记者表示,Agent Engine 允许组织从概念到训练再到最终生产的全流程管理。它处理"智能体上下文、基础设施管理、扩展复杂性、安全性、评估和监控"。
Agent Engine 可与 ADK 集成,也可部署在 LangGraph 或 CrewAI 等其他框架上。
通过短期和长期记忆支持,用户可以为智能体保持上下文。他们可以自定义智能体可以从过去的对话或会话中提取多少或多少信息。
Agent Engine 还允许企业评估智能体在实时使用过程中的行为和可靠性。
希望获得更多智能体构建帮助的企业可以访问 Google 的新型 Agent Garden。Agent Garden 类似于模型库,是一个预构建智能体和工具的库,用户可以用它来模拟他们的智能体。
智能体管理
对许多组织来说,智能体的安全性和可信度是一个重要关注点。目前有许多新方法可以提高智能体的可靠性和准确性。
Google 通过 ADK 和 Vertex AI 提供的解决方案为企业带来了额外的配置选项,包括: - 通过内容过滤器、定义边界和禁止主题来控制智能体输出 - 通过智能体权限进行身份控制 - 对智能体可访问的数据进行安全参数限制,以防止敏感数据泄露 - 设置防护机制,包括在输入到达运行智能体的模型之前进行筛选 - 自动监控智能体行为
智能体平台竞争加剧
企业此前已经能够使用 Google 的 AI 服务构建智能体。不过,ADK 及其他智能体 AI 产品的推出使 Google 与其他智能体提供商的竞争更加激烈。科技公司正越来越多地提供一站式智能体构建平台。
Google 需要证明其一站式智能体创建平台(为 Gemini 模型和 Vertex AI 优化)是更好的选择。
OpenAI 在 3 月发布了 Agents SDK,允许人们使用开源工具(包括非 OpenAI 模型)构建智能体。Agents SDK 还提供可配置的企业安全性和防护机制。Amazon 在 2023 年推出的 Agents on Bedrock 也允许组织在一个平台上构建智能体,而且 Bedrock 去年更新了编排功能。
新兴公司 Emergence AI 发布了一个智能体构建平台,让人们可以根据需要随时创建任何 AI 智能体。用户只需指定要完成的任务,AI 模型就会创建相应的智能体来完成任务。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。