在过去一年多的时间里,我们见证了智能体AI工具的框架和协议激增。
现在有用于智能体间对话的智能体对智能体协议(A2A),有用于智能体与商务系统对话的智能体商务协议(ACP)和智能体支付协议(AP2),当然还有用于智能体与工具对话并引入上下文的模型上下文协议(MCP)。这些缩写词层出不穷。
然而,云通信公司Twilio认为,在所有这些协议中,缺少一个帮助智能体与人类沟通的框架。
该公司周四发布了开源的智能体对人类(A2H)协议,旨在帮助智能体管理从自主工作任务到将人类纳入循环的交接过程,并通过正确的渠道进行。
Twilio新兴技术产品和工程副总裁Rikki Singh在公告中简洁地表述:"智能体专注于它需要从人类那里获得什么,而不是如何联系他们。"在这个过程中,系统还会跟踪所有这些交互并创建审计跟踪。
在与The New Stack的独家采访中,Singh表示,虽然智能体正变得越来越自主,但你总是需要人类参与其中。
"这不是因为AI效率低下,而是因为人类判断在我们做出的许多决策中发挥着重要作用,而且人类判断带来的信任元素也很重要,"她说。
问题随之而来的是这种升级路径应该是什么样的。Twilio长期以来一直管理着企业与消费者的互动方式,无论是通过短信、消息应用程序还是语音通话,Singh认为这让公司在解决这个问题上处于独特地位。
"我认为我们想要解决的是消除责任——关于思考升级路径的责任。我应该考虑到这一点。这不应该由开发者或消费者承担,对吧?这应该由工具承担,应该由技术承担,"她说。
开发者不应该需要弄清楚智能体如何联系人类并维护跨SMS、WhatsApp、推送通知或语音等渠道的所有必要集成。
A2H理想地抽象了所有这些,智能体只需将其消息发送到A2H网关,然后由网关处理升级的消息传递部分。
基于公司在连接企业和消费者方面的经验,A2H支持五个核心意图(当然是可扩展的):通知(用于单向通知)、收集(用于收集结构化信息如收货地址)、授权(用于通过身份验证批准交易)、升级(移交给人类)和结果(用于报告任务完成情况)。
考虑到使用场景,甚至第一个A2H案例也专注于安全性。通过网关的每次交互都会产生一个签名工件。这意味着当人类批准一笔交易时,例如,这是智能体请求并获得同意的明确证据。正如Singh所指出的,这也是网关至关重要的原因,因为必须有一套可执行的规则来确保智能体为某些交易请求批准,并且有这些记录。
"我们采用的观点是,每当智能体试图与人类沟通时,现实中都有一个隐含的意图,"Singh说。"我们意识到这是帮助开发者以及最终可能运行自己的半自主智能体的消费者理解如何构建这些对话的最佳方式。这就是我们采用意图方法的原因。"
然而,默认意图只是一个基准。整体框架是可扩展的。
对于使用MCP的智能体,A2H只是成为另一个工具,它们可以使用相同的工具调用模式(比如humans_inform())。
随着周四的公告,Twilio开源了A2H规范的第一个版本,该版本专注于意图,包括身份验证支持和传递渠道抽象。即将推出的是与更多智能体框架如LangGraph和CrewAI的集成,以及用于创建常设批准(和取消它们)的附加原语。
Q&A
Q1:什么是A2H协议?它解决了什么问题?
A:A2H(Agent-2-Human)是Twilio开发的开源协议,专门帮助智能体与人类沟通。它解决了当智能体需要人类参与时,如何正确地将任务交接给人类,并通过合适的渠道进行沟通的问题。
Q2:A2H协议支持哪些核心功能?
A:A2H协议支持五个核心意图:通知(单向通知)、收集(收集结构化信息)、授权(通过身份验证批准交易)、升级(移交给人类)和结果(报告任务完成)。这些功能都是可扩展的。
Q3:A2H协议如何保证安全性?
A:A2H协议通过网关处理所有交互,每次交互都会产生签名工件,创建完整的审计跟踪。当人类批准交易时,系统会记录智能体请求并获得同意的明确证据,确保可追溯性和安全性。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。