大语言模型正在改变企业的运作方式,但它们“黑箱”般的特性常常使企业在面对不可预测性时感到无从下手。为了解决这一关键挑战, Anthropic 最近开源了其电路追踪工具,使开发者和研究人员能够直接了解并控制模型的内部运作。
该工具使研究人员能够探查开放权重模型中未解释的错误和意外行为,同时也有助于对大语言模型的特定内部功能进行细粒度的微调。
理解 AI 的内部逻辑
该电路追踪工具基于“机理可解释性”工作,这一新兴领域致力于通过内部激活模式而非仅仅观察输入和输出,来理解 AI 模型的运作原理。
尽管 Anthropic 最初在电路追踪研究中将这一方法应用于自家的 Claude 3.5 Haiku 模型,但该开源工具将这种能力扩展到了开放权重模型。 Anthropic 的团队已经使用该工具追踪了 Gemma-2-2b 和 Llama-3.2-1b 等模型中的电路,并发布了一个 Colab 笔记本,帮助用户在开放模型上使用该库。
该工具的核心在于生成归因图——一种追踪模型在处理信息并生成输出时各特征之间相互作用的因果图。(特征是指模型内部的激活模式,可以大致映射到易于理解的概念上。)这就像是获得了一张详细的 AI 内部思考过程的接线图。更重要的是,该工具支持“干预实验”,使研究人员能够直接修改这些内部特征,并观察 AI 内部状态的变化如何影响其外部响应,从而实现对模型的调试。
该工具与 Neuronpedia 集成,这是一个用于理解和实验神经网络的开放平台。
在 Neuronpedia 上的电路追踪
对企业 AI 的实际应用和未来影响
虽然 Anthropic 的电路追踪工具为实现可解释和可控的 AI 迈出了重要一步,但它也面临实际挑战,包括运行工具所需的高内存成本以及解释详尽归因图所带来的固有复杂性。
然而,这些挑战正是前沿研究中常见的问题。机理可解释性是一个重要的研究领域,大多数顶尖 AI 实验室都在开发模型,以探究大语言模型的内部机制。通过开源电路追踪工具, Anthropic 将使社区能够开发出更具扩展性、自动化且更易于不同用户使用的可解释性工具,为将大量精力投入到理解大语言模型的研究转化为实际应用铺平道路。
随着工具的逐步成熟,理解大语言模型为何做出特定决策的能力将为企业带来实实在在的好处。
电路追踪能够解释大语言模型如何实现复杂的多步推理。例如,在他们的研究中,研究人员追踪到了模型如何从“Dallas”推断出“Texas”,最终确定“Austin”为州府。研究还揭示了先进的规划机制,例如模型在创作诗歌时预先选择押韵词以指导诗句构成。企业可以利用这些洞见来分析模型如何处理数据分析或法律推理等复杂任务,对内部规划或推理步骤的精确定位可助于实现针对性的优化,从而提高复杂业务流程中的效率与准确性。
此外,电路追踪对数值运算提供了更清晰的解释。例如,研究人员发现模型处理算术运算(如 36 + 59 = 95)并不是通过简单算法,而是通过并行路径和数字“查找表”特征来完成。企业可以利用这些洞见对内部生成数值结果的计算过程进行审核,识别错误来源,并实施针对性修复措施,从而确保开源大语言模型中数据的完整性和计算的准确性。
对于全球化部署,该工具还能为多语言一致性提供洞察。 Anthropic 先前的研究表明,模型同时采用了语言特定和抽象、与语言无关的“通用思维语言”电路,且更大规模的模型表现出更强的泛化能力。这有助于调试在不同语言部署模型时可能出现的本地化问题。
最后,该工具可以帮助解决幻觉问题并提升事实依据的稳固性。研究显示,模型对于未知查询会采用“默认拒绝电路”,而这一电路会被“已知答案”特征所抑制。当这种抑制机制“失灵”时,便可能产生幻觉。
除了调试现有问题外,这种机理上的理解还为大语言模型的微调开辟了新途径。企业不必仅仅通过反复试验来调整输出行为,而可以识别并针对驱动所期望或不期望特性的具体内部机制。例如,了解模型的“Assistant persona”如何无意中融入隐藏的奖励模型偏差(正如 Anthropic 的研究所示),使得开发者能够精确地重新调校负责对齐的内部电路,从而实现更强健、更符合伦理标准的 AI 部署。
随着大语言模型越来越多地集成到企业的关键职能中,其透明性、可解释性和可控性变得愈发重要。这一新一代工具有助于弥合 AI 强大能力与人类理解之间的鸿沟,建立基础性的信任,并确保企业能够部署出既可靠又可审核,同时符合战略目标的 AI 系统。
好文章,需要你的鼓励
Writer首席执行官May Habib指出,企业在构建和扩展AI智能体时面临重大挑战。智能体在构建、运行和改进方式上与传统软件截然不同,需要抛弃传统软件开发生命周期。智能体不会可靠地遵循规则,而是结果导向、具备解释和适应能力。企业需要采用目标导向方法,设计业务逻辑蓝图而非工作流程。质量保证也需要评估非二元行为和实际应用表现。智能体维护需要新的版本控制系统,涵盖提示、模型设置等所有影响行为的因素。
这项研究解决了AI图片描述中的两大难题:描述不平衡和内容虚构。通过创新的"侦探式追问"方法,让AI能生成更详细准确的图片描述,显著提升了多个AI系统的性能表现,为无障碍技术、教育、电商等领域带来实用价值。
Salesforce首席执行官马克·贝尼奥夫表示,公司正大力推进人工智能应用,AI代理现在承担了公司30%至50%的工作。他认为员工应适应AI替代人工的趋势,转向更高价值的工作。然而,这一变化导致约1000名员工被裁,虽然公司计划招聘同等数量新员工,但主要专注于销售AI技术。这一趋势在科技行业普遍存在,今年已有超过63000个科技岗位消失,AI被认为是重要原因之一。
Skywork AI首次在软件工程领域验证数据规模效应,开发的Skywork-SWE-32B模型在SWE-bench Verified基准测试中达到38.0%准确率(使用测试时缩放技术可达47.0%),创下开源模型新纪录。研究构建了包含10169个验证实例的大规模数据集,证明增加高质量训练数据能持续提升AI软件修复能力,为开源软件工程AI发展提供重要突破。