大语言模型正在改变企业的运作方式,但它们“黑箱”般的特性常常使企业在面对不可预测性时感到无从下手。为了解决这一关键挑战, Anthropic 最近开源了其电路追踪工具,使开发者和研究人员能够直接了解并控制模型的内部运作。
该工具使研究人员能够探查开放权重模型中未解释的错误和意外行为,同时也有助于对大语言模型的特定内部功能进行细粒度的微调。
理解 AI 的内部逻辑
该电路追踪工具基于“机理可解释性”工作,这一新兴领域致力于通过内部激活模式而非仅仅观察输入和输出,来理解 AI 模型的运作原理。
尽管 Anthropic 最初在电路追踪研究中将这一方法应用于自家的 Claude 3.5 Haiku 模型,但该开源工具将这种能力扩展到了开放权重模型。 Anthropic 的团队已经使用该工具追踪了 Gemma-2-2b 和 Llama-3.2-1b 等模型中的电路,并发布了一个 Colab 笔记本,帮助用户在开放模型上使用该库。
该工具的核心在于生成归因图——一种追踪模型在处理信息并生成输出时各特征之间相互作用的因果图。(特征是指模型内部的激活模式,可以大致映射到易于理解的概念上。)这就像是获得了一张详细的 AI 内部思考过程的接线图。更重要的是,该工具支持“干预实验”,使研究人员能够直接修改这些内部特征,并观察 AI 内部状态的变化如何影响其外部响应,从而实现对模型的调试。
该工具与 Neuronpedia 集成,这是一个用于理解和实验神经网络的开放平台。
在 Neuronpedia 上的电路追踪
对企业 AI 的实际应用和未来影响
虽然 Anthropic 的电路追踪工具为实现可解释和可控的 AI 迈出了重要一步,但它也面临实际挑战,包括运行工具所需的高内存成本以及解释详尽归因图所带来的固有复杂性。
然而,这些挑战正是前沿研究中常见的问题。机理可解释性是一个重要的研究领域,大多数顶尖 AI 实验室都在开发模型,以探究大语言模型的内部机制。通过开源电路追踪工具, Anthropic 将使社区能够开发出更具扩展性、自动化且更易于不同用户使用的可解释性工具,为将大量精力投入到理解大语言模型的研究转化为实际应用铺平道路。
随着工具的逐步成熟,理解大语言模型为何做出特定决策的能力将为企业带来实实在在的好处。
电路追踪能够解释大语言模型如何实现复杂的多步推理。例如,在他们的研究中,研究人员追踪到了模型如何从“Dallas”推断出“Texas”,最终确定“Austin”为州府。研究还揭示了先进的规划机制,例如模型在创作诗歌时预先选择押韵词以指导诗句构成。企业可以利用这些洞见来分析模型如何处理数据分析或法律推理等复杂任务,对内部规划或推理步骤的精确定位可助于实现针对性的优化,从而提高复杂业务流程中的效率与准确性。
此外,电路追踪对数值运算提供了更清晰的解释。例如,研究人员发现模型处理算术运算(如 36 + 59 = 95)并不是通过简单算法,而是通过并行路径和数字“查找表”特征来完成。企业可以利用这些洞见对内部生成数值结果的计算过程进行审核,识别错误来源,并实施针对性修复措施,从而确保开源大语言模型中数据的完整性和计算的准确性。
对于全球化部署,该工具还能为多语言一致性提供洞察。 Anthropic 先前的研究表明,模型同时采用了语言特定和抽象、与语言无关的“通用思维语言”电路,且更大规模的模型表现出更强的泛化能力。这有助于调试在不同语言部署模型时可能出现的本地化问题。
最后,该工具可以帮助解决幻觉问题并提升事实依据的稳固性。研究显示,模型对于未知查询会采用“默认拒绝电路”,而这一电路会被“已知答案”特征所抑制。当这种抑制机制“失灵”时,便可能产生幻觉。
除了调试现有问题外,这种机理上的理解还为大语言模型的微调开辟了新途径。企业不必仅仅通过反复试验来调整输出行为,而可以识别并针对驱动所期望或不期望特性的具体内部机制。例如,了解模型的“Assistant persona”如何无意中融入隐藏的奖励模型偏差(正如 Anthropic 的研究所示),使得开发者能够精确地重新调校负责对齐的内部电路,从而实现更强健、更符合伦理标准的 AI 部署。
随着大语言模型越来越多地集成到企业的关键职能中,其透明性、可解释性和可控性变得愈发重要。这一新一代工具有助于弥合 AI 强大能力与人类理解之间的鸿沟,建立基础性的信任,并确保企业能够部署出既可靠又可审核,同时符合战略目标的 AI 系统。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。