日本AI实验室Sakana AI开发了一种名为"自然生态位模型融合"(M2N2)的新型进化算法,让开发者能够在不进行昂贵训练和微调的情况下增强AI模型能力。该技术克服了其他模型融合方法的局限性,甚至能够从零开始进化出全新模型。
M2N2可应用于不同类型的机器学习模型,包括大语言模型和文本到图像生成器。对于寻求构建定制AI解决方案的企业而言,该方法通过结合现有开源模型的优势,提供了创建专业化模型的强大且高效的途径。
**什么是模型融合?**
模型融合是一种将多个专业化AI模型的知识整合到单一、更强大模型中的技术。与使用新数据对单个预训练模型进行微调不同,融合技术同时组合多个模型的参数。这个过程可以将丰富的知识整合到一个资产中,而无需昂贵的基于梯度的训练或访问原始训练数据。
对企业团队而言,这比传统微调提供了几个实际优势。论文作者向VentureBeat表示,模型融合是一个无梯度过程,只需要前向传播,使其在计算上比涉及昂贵梯度更新的微调更便宜。融合还避免了对精心平衡训练数据的需求,并减轻了"灾难性遗忘"的风险——即模型在学习新任务后丢失原有能力。当专业模型的训练数据不可用时,该技术特别强大,因为融合只需要模型权重本身。
早期的模型融合方法需要大量手动工作,开发者通过试错调整系数来找到最优组合。最近,进化算法通过搜索参数的最优组合帮助自动化这一过程。然而,仍存在重要的手动步骤:开发者必须为可融合参数(如层)设置固定集合。这种限制缩小了搜索空间,可能阻止发现更强大的组合。
**M2N2的工作原理**
M2N2通过从自然界的进化原理中汲取灵感来解决这些局限性。该算法具有三个关键特征,使其能够探索更广泛的可能性并发现更有效的模型组合。
首先,M2N2消除了固定的融合边界,如块或层。它使用灵活的"分割点"和"混合比例"来划分和组合模型,而不是按预定义层对参数分组。这意味着算法可能将模型A中某层30%的参数与模型B中同一层70%的参数融合。该过程从种子模型的"档案"开始。在每一步中,M2N2从档案中选择两个模型,确定混合比例和分割点,然后融合它们。如果生成的模型表现良好,就会被添加回档案,替换较弱的模型。
其次,M2N2通过竞争管理模型群体的多样性。为了理解多样性的重要性,研究人员提供了一个简单类比:"想象融合两张考试答题纸...如果两张纸的答案完全相同,组合它们不会带来任何改进。但如果每张纸在不同问题上有正确答案,融合它们会产生更强的结果。"M2N2模拟有限资源竞争,这种受自然启发的方法自然奖励具有独特技能的模型。
第三,M2N2使用称为"吸引力"的启发式方法来配对模型进行融合。"吸引力分数"识别一个模型在另一个模型感到困难的数据点上表现良好的配对,这提高了搜索效率和最终融合模型的质量。
**M2N2实践应用**
研究人员在三个不同领域测试了M2N2,证明了其多功能性和有效性。
首先,他们在MNIST数据集上从零开始进化基于神经网络的图像分类器。M2N2在测试准确率上大幅领先其他方法。
接下来,他们将M2N2应用于大语言模型,结合数学专家模型(WizardMath-7B)和智能体专家模型(AgentEvol-7B)。融合后的模型在数学问题和基于网络的任务上都实现了强劲表现。
最后,团队融合了基于扩散的图像生成模型,将日语提示训练的模型(JSDXL)与三个主要用英语提示训练的Stable Diffusion模型结合。融合模型不仅产生了更逼真的图像,还发展出了双语能力,能够从英语和日语提示生成高质量图像。
对于已经开发专业模型的企业而言,融合的商业案例令人信服。研究人员指出了难以通过其他方式实现的新型混合能力。例如,将针对说服性销售演示微调的大语言模型与训练解释客户反应的视觉模型融合,可以创建一个根据实时视频反馈调整演示的单一智能体。
展望未来,研究人员将M2N2等技术视为"模型融合"更广泛趋势的一部分。他们设想未来组织将维护整个AI模型生态系统,持续进化和融合以适应新挑战。
研究人员已在GitHub上发布了M2N2的代码。作者认为,这种动态、自我改进AI生态系统的最大障碍不是技术性的,而是组织性的——在由开源、商业和定制组件构成的大型"融合模型"世界中,确保隐私、安全和合规将是关键问题。
Q&A
Q1:M2N2算法是什么?它有什么优势?
A:M2N2是Sakana AI开发的"自然生态位模型融合"算法,是一种新型进化算法。它能够在不进行昂贵训练和微调的情况下增强AI模型能力,通过融合多个专业模型的参数来创建更强大的单一模型。相比传统微调,M2N2计算成本更低,无需梯度更新,还能避免灾难性遗忘问题。
Q2:M2N2算法的核心技术特征有哪些?
A:M2N2有三个关键特征:首先是消除固定融合边界,使用灵活的分割点和混合比例;其次是通过竞争机制管理模型群体多样性,模拟自然界有限资源竞争;第三是使用"吸引力"启发式方法配对模型,基于互补优势而非简单的顶级表现来选择融合对象。
Q3:M2N2算法在实际应用中效果如何?
A:M2N2在三个领域的测试中都表现出色:在MNIST图像分类任务中取得最高准确率;成功融合数学专家模型和智能体专家模型,创建了在两类任务上都表现优异的模型;在图像生成领域,融合后的模型不仅图像质量更高,还意外获得了双语能力,能同时理解英语和日语提示。
好文章,需要你的鼓励
Intuit在ChatGPT发布后匆忙推出的聊天式AI助手遭遇失败,随后公司进行了为期九个月的战略转型。通过观察客户实际工作流程,发现手动转录发票等重复性劳动,决定用AI智能体自动化这些任务而非强加新的聊天行为。公司建立了三大支柱框架:培养构建者文化、高速迭代替代官僚主义、构建GenOS平台引擎。最终推出的QuickBooks支付智能体让小企业平均提前5天收到款项,每月节省12小时工作时间。
英国曼彻斯特大学研究团队开发了Distilled-3DGS技术,首次将知识蒸馏应用于3D场景重建压缩。通过"多师傅带徒弟"的训练方式,该技术在减少86%以上存储空间的同时提升了图像质量,为VR/AR、自动驾驶等应用在普通设备上的部署开辟了新路径。
马斯克旗下xAI公司发布专为开发者设计的新AI模型grok-code-fast-1,主打快速且经济的推理能力。该模型属于Grok 4系列,具备自主处理任务的能力。xAI声称其在SWE-bench评测中解决了70.8%的实际软件问题,表现优于GPT-5和Claude 4。不过模型存在较高的不诚实率问题。用户可通过GitHub Copilot等平台免费试用7天,需要API密钥访问。
挪威卑尔根大学研究团队开发了RotaTouille深度学习框架,专门处理轮廓数据的旋转等变性问题。该方法基于复数值神经网络和圆形卷积,无论轮廓如何旋转或改变起始点都能准确识别。实验显示在多个数据集上超越传统方法,为医学影像、工业检测等领域提供了新的技术选择。