随着企业自动化运营的不断深入,AI智能体正在迅速普及。然而,确保智能体能够正确、安全地完成任务仍然是一个没有明显解决方案的问题。
在不同环境中构建的智能体通常无法良好协作。例如,一个组织可能拥有商用现成智能体,而另一个组织可能构建了定制智能体。它们无法在没有连接代码的情况下进行通信。
IDC软件开发研究副总裁Arnal Dayaratna提出疑问:"如何让这些智能体协同工作?目前没人真正知道答案,因此这涉及到发明一个共享数据层,使智能体能够协作。"
专家表示,目前IT领导者必须保持其AI基础设施和架构的模块化和灵活性,以便在市场变化时能够及时调整,而市场总是在不断变化。
当前构建的AI智能体依赖特殊协议或通信方法,这些协议为智能体提供了结构化词汇,使其能够将复杂目标分解为可管理的子任务并进行分发。自然地,几种协议已经出现。
最突出的是模型上下文协议(Model Context Protocol)。由Anthropic构建,MCP决定智能体如何访问资源、工具和信息,如API或数据库。MCP主要针对共享信任边界内或单一应用程序栈(如Claude Desktop)中的智能体进行优化。
谷歌的Agent2Agent专注于智能体之间的通信方式、任务协调和工作流协作。A2A智能体使用称为智能体卡的结构化元数据格式来宣传自己,这是一种配置文件,使智能体能够相互发现。
边缘技术包括智能体网络协议(Agent Network Protocol),这是一个支持开放网络智能体发现的开源方案。
关键问题在于:每个协议都基于关于智能体驻留位置和信任对象的根本不同假设而构建。根据微软研究,它们并非设计为原生相互通信。这意味着组织必须构建API来桥接这些协议。
桥接建设正在进行中。然而,它可能无法跟上智能体技术的新创新和发展步伐。目前很少有智能体共享访问层,而这种访问层有助于维护大型企业履行治理要求所需的身份和一致性。
此外,今天的智能体协议在明天不一定可行。
Exabeam首席AI官Steve Wilson表示:"所有这些都将被推翻和吸收,而且会发生得非常快。"例如,Wilson说MCP由于其复杂的基于服务器的体验而正在失宠,而开发人员想要一个简单的文本文件来构建技能。
大多数IT领导者在面对高风险技术问题时倾向于谨慎行事。然而,IT领导者必须使用不同协议实验AI应用程序,同时为自己留下快速调整方向的灵活性。
强生公司CIO Jim Swanson说:"鉴于事物发展如此之快,如果你不进行实验和推进以了解现状,你可能会很快落后。"
为此,快速发展的AI市场促使强生应用模块化架构,并重新构想跨越多个平台和数据集的业务工作流程,Swanson说。
Swanson表示:"在业务流程中存在重大机遇,但你必须将其与数据质量和包括AI组件在内的完整技术栈的成熟度相结合。"
Workato CIO Carter Busse表示,对CIO来说最安全的行动路线是在智能体和系统之间插入编排、策略和事务控制。这将为IT领导者提供控制"AI如何在业务中行动"的权力,Busse说。
围绕智能体AI互操作性或不兼容性的叙述轨迹对于资深IT专业人士来说可能似曾相识。一个恰当的类比是30年前的网络协议战争,IBM、Novell等公司争相标准化解决方案,直到行业在互联网爆炸式发展时确定TCP/IP为标准。
即便如此,智能体标准的整合将比TCP/IP成为主导所花费的十年时间更快地发生。
Dayaratna说:"所有这些(智能体AI)东西都还处于起步阶段。"
Q&A
Q1:什么是模型上下文协议MCP?它有什么作用?
A:模型上下文协议(MCP)是由Anthropic构建的智能体通信协议,它决定智能体如何访问资源、工具和信息,如API或数据库。MCP主要针对共享信任边界内或单一应用程序栈中的智能体进行优化,比如Claude Desktop应用。
Q2:为什么不同的智能体协议无法直接通信?
A:每个协议都基于关于智能体驻留位置和信任对象的根本不同假设而构建,它们并非设计为原生相互通信。这意味着组织必须构建API来桥接不同的协议,才能让使用不同协议的智能体进行协作。
Q3:CIO应该如何应对智能体协议的快速变化?
A:专家建议CIO保持AI基础设施和架构的模块化和灵活性,在智能体和系统之间插入编排、策略和事务控制。同时要积极实验不同协议的AI应用程序,为自己留下快速调整方向的灵活性。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。