大语言模型正在改变企业的运作方式,但它们“黑箱”般的特性常常使企业在面对不可预测性时感到无从下手。为了解决这一关键挑战, Anthropic 最近开源了其电路追踪工具,使开发者和研究人员能够直接了解并控制模型的内部运作。
该工具使研究人员能够探查开放权重模型中未解释的错误和意外行为,同时也有助于对大语言模型的特定内部功能进行细粒度的微调。
理解 AI 的内部逻辑
该电路追踪工具基于“机理可解释性”工作,这一新兴领域致力于通过内部激活模式而非仅仅观察输入和输出,来理解 AI 模型的运作原理。
尽管 Anthropic 最初在电路追踪研究中将这一方法应用于自家的 Claude 3.5 Haiku 模型,但该开源工具将这种能力扩展到了开放权重模型。 Anthropic 的团队已经使用该工具追踪了 Gemma-2-2b 和 Llama-3.2-1b 等模型中的电路,并发布了一个 Colab 笔记本,帮助用户在开放模型上使用该库。
该工具的核心在于生成归因图——一种追踪模型在处理信息并生成输出时各特征之间相互作用的因果图。(特征是指模型内部的激活模式,可以大致映射到易于理解的概念上。)这就像是获得了一张详细的 AI 内部思考过程的接线图。更重要的是,该工具支持“干预实验”,使研究人员能够直接修改这些内部特征,并观察 AI 内部状态的变化如何影响其外部响应,从而实现对模型的调试。
该工具与 Neuronpedia 集成,这是一个用于理解和实验神经网络的开放平台。
在 Neuronpedia 上的电路追踪
对企业 AI 的实际应用和未来影响
虽然 Anthropic 的电路追踪工具为实现可解释和可控的 AI 迈出了重要一步,但它也面临实际挑战,包括运行工具所需的高内存成本以及解释详尽归因图所带来的固有复杂性。
然而,这些挑战正是前沿研究中常见的问题。机理可解释性是一个重要的研究领域,大多数顶尖 AI 实验室都在开发模型,以探究大语言模型的内部机制。通过开源电路追踪工具, Anthropic 将使社区能够开发出更具扩展性、自动化且更易于不同用户使用的可解释性工具,为将大量精力投入到理解大语言模型的研究转化为实际应用铺平道路。
随着工具的逐步成熟,理解大语言模型为何做出特定决策的能力将为企业带来实实在在的好处。
电路追踪能够解释大语言模型如何实现复杂的多步推理。例如,在他们的研究中,研究人员追踪到了模型如何从“Dallas”推断出“Texas”,最终确定“Austin”为州府。研究还揭示了先进的规划机制,例如模型在创作诗歌时预先选择押韵词以指导诗句构成。企业可以利用这些洞见来分析模型如何处理数据分析或法律推理等复杂任务,对内部规划或推理步骤的精确定位可助于实现针对性的优化,从而提高复杂业务流程中的效率与准确性。
此外,电路追踪对数值运算提供了更清晰的解释。例如,研究人员发现模型处理算术运算(如 36 + 59 = 95)并不是通过简单算法,而是通过并行路径和数字“查找表”特征来完成。企业可以利用这些洞见对内部生成数值结果的计算过程进行审核,识别错误来源,并实施针对性修复措施,从而确保开源大语言模型中数据的完整性和计算的准确性。
对于全球化部署,该工具还能为多语言一致性提供洞察。 Anthropic 先前的研究表明,模型同时采用了语言特定和抽象、与语言无关的“通用思维语言”电路,且更大规模的模型表现出更强的泛化能力。这有助于调试在不同语言部署模型时可能出现的本地化问题。
最后,该工具可以帮助解决幻觉问题并提升事实依据的稳固性。研究显示,模型对于未知查询会采用“默认拒绝电路”,而这一电路会被“已知答案”特征所抑制。当这种抑制机制“失灵”时,便可能产生幻觉。
除了调试现有问题外,这种机理上的理解还为大语言模型的微调开辟了新途径。企业不必仅仅通过反复试验来调整输出行为,而可以识别并针对驱动所期望或不期望特性的具体内部机制。例如,了解模型的“Assistant persona”如何无意中融入隐藏的奖励模型偏差(正如 Anthropic 的研究所示),使得开发者能够精确地重新调校负责对齐的内部电路,从而实现更强健、更符合伦理标准的 AI 部署。
随着大语言模型越来越多地集成到企业的关键职能中,其透明性、可解释性和可控性变得愈发重要。这一新一代工具有助于弥合 AI 强大能力与人类理解之间的鸿沟,建立基础性的信任,并确保企业能够部署出既可靠又可审核,同时符合战略目标的 AI 系统。
好文章,需要你的鼓励
丰田第六代RAV4搭载高通骁龙数字底盘平台,提供个性化、直观且无缝连接的驾驶体验。新车基于丰田Arene软件开发平台,推进软件定义汽车发展,配备紧急驾驶停止系统和突然加速抑制功能。车载多媒体系统支持个性化主屏幕定制和更准确的语音识别。通过与高通技术公司合作,利用先进AI技术增强用户体验,提供更智能、直观和安全的出行方案。
上海AI实验室开发RePro训练方法,通过将AI推理过程类比为优化问题,教会AI避免过度思考。该方法通过评估推理步骤的进步幅度和稳定性,显著提升了模型在数学、科学和编程任务上的表现,准确率提升5-6个百分点,同时大幅减少无效推理,为高效AI系统发展提供新思路。
Chainguard发布可信开源软件季度报告,基于1800多个容器镜像项目和近5亿次构建的数据分析。报告显示:Python因AI需求成为最受欢迎的开源镜像;超半数生产环境运行在热门项目之外的长尾镜像上;98%的漏洞出现在非热门项目中,安全负担主要集中在不太显眼的技术栈部分;44%客户在生产环境中使用FIPS镜像以满足合规要求;Chainguard平均在20小时内修复关键漏洞。
MIT团队开发的VLASH技术首次解决了机器人动作断续、反应迟缓的根本问题。通过"未来状态感知"让机器人边执行边思考,实现了最高2.03倍的速度提升和17.4倍的反应延迟改善,成功展示了机器人打乒乓球等高难度任务,为机器人在动态环境中的应用开辟了新可能性。