不久前,我意识到有一个全新的标准正在重构网络,而目前几乎没有人讨论它。
我们先从名字开始: Networked Agents and Decentralized AI 或 NANDA,是一个用于 AI 代理的网络协议,目前主要由 MIT 推进研究。
需要注意的是,从设计背景来看,NANDA 建立在 Anthropic 的 Model Context Protocol (MCP) 基础之上,该协议为 AI 代理提供了标准化交互的机制。而 NANDA 则通过增加互联网功能和协议,使这些代理能够在网络上“开展工作”。
概括来说就是如此,但要实现这一目标仍需大量努力。我觉得真正有趣的是,很少有人知道这一进展正在进行中。
Googling and ChatGPT
我之前从未听说过 NANDA,于是进行了简单的网络搜索。结果主要出现与护理行业相关的信息,同时还有一个面向印地语的大语言模型项目使用了相同的名称。
不过,一些撰写关于 NANDA 论文的作者在 LinkedIn 上发布了有关这一协议运作方式的说明。
“正如 DNS 通过提供中立的网络访问框架而引发互联网革命,我们同样需要为‘代理互联网’构建类似的基础架构,” MIT 博士候选人 Ayush Chopra 在阐述这一理念时写道,“我们正在与国家实验室和全球大学(分布于 8 个时区)合作推出 NANDA —— 一个针对 AI 代理的注册、验证与声誉的开放协议。NANDA 将为不同系统间的无缝协作铺平道路,并与诸如 MCP 和 A2A 等企业级协议保持完全兼容。这个举措是向代理式 AI 民主化迈进的一步,旨在构建一个让专门代理协同解决复杂问题的生态系统,就像 DNS 为网络所做的一样。”
至于 ChatGPT,当我问这个模型“ NANDA 是为网络做什么的?”时,它返回的是关于护理组织的信息。
我不得不特意说明项目全称 Networked Agents and Decentralized AI,但它确实将这一项目归因于 MIT Media Lab,尤其是与我的朋友兼同事 Ramesh Raskar 有关。它迅速给出了如下双重回应,我觉得非常准确:
? 是的,确实存在一个名为 NANDA —— Networked Agents and Decentralized AI 的新领域或研究项目。 ? 它与护理领域的 NANDA 完全不同。
这无疑是个良好的开端(而且 ChatGPT 还提供了更多信息)——不过我们可以从实际参与者那里获得更深入的了解。
Ramesh Raskar 解析 NANDA
现在让我们来看看 Raskar 在四月初举行的 Imagination in Action 活动中的发言。
在演讲中,他解释说,NANDA 实际上是一种互联网协议,是为 AI 构建的“TCP/IP”(我觉得这种比喻非常贴切,因此把它作为本文标题)。
他提到,互联网是为计算机而设,而万维网则是为人们服务。NANDA 则旨在让 AI 代理能像人类一样使用互联网。
举例来说,Raskar 提出了为孩子策划生日派对的情景,届时可以设想利用 AI 代理自动购买蛋糕、气球及其他所需物品,从而实现流程全自动化。
关于推广,他表示 NANDA 已在 15 所重点大学的 DNS 中进行了注册。他还提到部署的三步流程: 1. 主机注册, 2. 构建 API, 3. 连接到开源平台。
随后,Raskar 在接受 Aaron Pressman 提问时谈到了这一体系未来的推广方式。
“每个人都在渴望某种开放而充满活力的系统,”他说道,“MIT 有着悠久的历史。我们深受 Tim Berners Lee 以及 MIT 万维网联盟的启发,他们在 90 年代初至 90 年代中期展示了如何构建开放、充满活力的网络,并释放出巨大的经济价值。”
Raskar 呼吁开展“宏大、开放且包容”的项目,并提出我们正处于一个“智慧经济”时代,而非传统的交易或知识经济。
“可以想象,当每个人都有能力创建自己的 AI 代理时,无论是每个商店、个体还是组织都能训练和部署自己的代理,就会带动数十亿乃至数万亿美元的价值创造,”他表示,并宣传 NANDA 作为构建推动新一代网络商业基础设施的平台。
NANDA 的缩写
我觉得这一点很有趣:在演讲中,Raskar 与 Chopra 都向我们介绍了一个新术语: A2A —— Agent to Agent(代理对代理)。
在讨论加密技术和智能合约的应用时,Raskar 还提出了“Know Your Agent” (KYA) 的概念,这大概对应于加密领域中使用的“Know Your Customer” (KYC) 协议。
“如果你考虑整个互联网协议栈,我们将 Yelp 等服务保留在应用层,因为它们涉及评分的复杂人性化因素。但由于这是代理间的通信,很多交互都是算法处理的,”他说道。
NANDA 的未来
Raskar 的演讲帮助我们理解了 NANDA 的背景、用途以及它可能的发展方向。令我感到兴奋的部分原因在于,这一成果目前仍未为大众所广泛知晓。
最初,我们拥有 Web 1.0 —— 只读型网络,用户主要浏览以 HTML 编写的文本与图像。
Web 2.0 则是读写型网络,用户可以通过填写表单将信息传送给网站管理员或主机。
Web 3.0 是具备读写和功能性的网络,用户既可以双向交换信息,也能调用内置的网络功能。
Web 4.0 则是由机器为我们完成所有这些任务,我们只需坐享成果。
至少,这就是构想。
期待这一成果能不断推进,并迅速进入公众视野。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。