关于如何组织我们的大语言模型和新技术以更好地发挥其能力,目前出现了一个新的想法。由于人们仍在适应 AI 这个概念,这个想法还不是很主流,但已经在学术界和商业领域的一些地方崭露头角。
MIT Media Lab 就是其中之一,研究人员在这里延续着 Marvin Minsky、Seymour Papert 等伟人的工作。今年恰逢实验室成立 40 周年,我们发现这个研究机构为 AI 时代的发展方向提供了一些很好的见解。
其中一个想法就是去中心化 AI 平台。这是我在规划下一代服务和部署时经常听到的概念。什么是去中心化 AI?为什么它很重要?
去中心化 AI 的力量
一些去中心化 AI 的倡导者指出,在当前中心化和单体模型中,一些大公司正在主导数据的使用来训练系统。
我的朋友兼同事 Ramesh Raskar 就是这些分析师之一。在论证去中心化 AI 的必要性时,他指出企业正在以令人担忧的方式集中化数据、计算和治理,而且他们往往不愿以建设性的方式共享数据。
他提到各方"互不信任、互不关联且缺乏兴趣",没有真正的合作动力。
与此相对,去中心化 AI 的支持者提出了"专家混合"设计的可能性,即强化学习和监督微调之间的相互作用创造了成功的工作流程。正如 Venturebeat 文章所述,这也是 DeepSeek 的切入点 - 利用强化学习的暴力特性在大语言模型效率上实现突破,绕过了监督微调。
但在 DeepSeek 模型突破之外,创新前沿的公司本身也存在脆弱性。Grayscale 的文章指出,就在 DeepSeek 宣布突破后,该公司就遭遇了黑客攻击,这正是去中心化 AI 可能解决的问题类型。
去中心化 AI 的四大支柱
当你听 Ramesh 或其他人谈论去中心化 AI 原则时,他们指出这些过程有四个总体目标:
隐私 - 如何保护个人数据的安全和隐私?
激励 - 各方合作的动力是什么?
验证 - 如何验证某人是否是好的参与者?
仪表盘 - 这种协作必须有某种界面。
我还发现了一个关于去中心化 AI 的有趣类比,它与互联网的发展有关。"Web 1.0"是构成全球互联网的网站和页面系列。"Web 2.0"是社交媒体。"Web 3.0"是区块链,一个真正的去中心化系统,其中节点和组件以主权的方式进行交互。
去中心化设计还包含什么?
去中心化与 AI 理论的历史
另一种思考方式是回顾人们最初理论化 AI 概念的早期时代。
例如,"去中心化 AI"的理念呼应了 Marvin Minsky 在其著作《心智社会》中的一些观点。他认为最好的 AI 系统应该像人脑一样运作,本质上不是一台计算机,而是一系列相互连接的计算机协同工作。
关于风险,那些试图为去中心化系统做准备的人指出,这些构造可能容易崩溃,或在 51% 攻击的情况下被恶意接管。
另一方面,如果系统足够智能,能够审查代理以确保其可信度,它们可以加速复杂的认可过程。
很大程度上,这归结为信任问题。我们每个人可能都有自己的 AI 代理为我们行事,或者我们可能只是拥有大型的现实生活 NPC 网络。我们必须有某种建立信任的框架,其他一切才能就位。
"有数十亿个代理。它们都想互相交谈,但彼此不信任。它们甚至不知道自己在哪里。它们甚至不知道自己做什么。就像我今天遇见你......如果我遇到别人,我不知道...他们的名字,我不知道他们的专长,也不知道如何判断我们是否应该合作。" - Ramesh Raskar
想想我们现在正在设计的所有系统的去中心化 AI 可能性 - 从推荐引擎到自动驾驶,从保险和贷款系统到智慧城市的 AI 规划师。借助人工智能,我们能够以鸟瞰视角运作,同时理解全局和所有细节。这是一个强大的工具,但必须正确地驾驭和部署它,这就是为什么很多专家还有一个建议:
我们需要首先在低风险环境中部署我们的先锋系统。然后继续改进它们,直到我们可以信任它们,只有在那时才能将它们投入关键任务系统。让我们在前进的过程中牢记这一点。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。