Anthropic 公司 CEO Dario Amodei 于周四发表了一篇文章,指出研究人员对于全球领先 AI 模型内部运作的了解非常有限。为了解决这一问题,Amodei 为 Anthropic 设定了一个雄心勃勃的目标,即到 2027 年能够可靠地发现大多数 AI 模型的问题。
Amodei 承认前路充满挑战。在 "The Urgency of Interpretability" 一文中,这位 CEO 表示,Anthropic 已经在追踪模型如何得到答案方面取得了早期突破——但他强调,随着系统变得更加强大,需要进行更多研究来解读这些系统。
"在没有更好地理解其可解释性之前,我非常担忧部署这种系统," Amodei 在文章中写道。 "这些系统将对经济、技术和国家安全起到绝对核心的作用,并且拥有如此高度的自主性,以至于我认为人类对它们的运作原理一无所知是完全不可接受的。"
Anthropic 是在机械可解释性领域的先驱公司之一,该领域旨在揭开 AI 模型黑箱,理解它们为何做出特定决策。尽管科技行业的 AI 模型在性能上快速提升,但我们对这些系统如何做出决策仍知之甚少。
例如,OpenAI 最近推出了新的推理 AI 模型 o3 和 o4-mini,在某些任务上的表现更出色,但它们产生虚构内容的情况也比其他模型更多。该公司尚未弄清楚原因所在。
"当一个生成式 AI 系统执行某项任务时,例如总结一份财务文件,我们在具体、精确的层面上完全无法解释它为何会做出这些选择——为什么它会选择某些词语而不是其他词语,或为何在通常准确的情况下偶尔出现错误," Amodei 在文章中写道。
在文章中,Amodei 引用了 Anthropic 联合创始人 Chris Olah 的观点,他认为 AI 模型是 "更多是生长出来而非被建造的"。换句话说,AI 研究人员已经找到提高 AI 模型智能的方法,但他们并不完全明白其中原因。
Amodei 在文章中表示,在不了解这些模型如何运作的情况下,达到 AGI——或者如他所称的 "数据中心中的天才国度"——可能会带来危险。在之前的一篇文章中,Amodei 曾声称科技行业有望在 2026 或 2027 年达到这一里程碑,但他认为我们在彻底理解这些 AI 模型方面还有很长的路要走。
从长远来看,Amodei 表示 Anthropic 希望基本上能够对最尖端的 AI 模型进行 "脑部扫描" 或 "MRI" 检查。他称,这些检查将有助于发现 AI 模型中广泛存在的问题,包括它们撒谎、追求权力或其他弱点的倾向。实现这一目标可能需要五到十年,但他补充道,这些措施对于测试和部署 Anthropic 未来的 AI 模型将是必要的。
Anthropic 已取得了一些研究突破,使其对 AI 模型的工作原理有了更深入的了解。例如,该公司最近找到了一种方法,能够通过所谓的 circuits (电路) 追踪 AI 模型的思维路径。Anthropic 识别出了一条电路,帮助 AI 模型理解哪些美国城市位于哪些美国州内。虽然该公司只发现了少数几条这样的电路,但它估计 AI 模型中可能存在数百万条类似的电路。
Anthropic 一直在投资于可解释性研究,并且最近首次对一家专注于该领域的初创企业进行了投资。虽然目前可解释性大多被视为安全研究的一个领域,Amodei 指出,最终解释 AI 模型如何得出答案可能会带来商业优势。
在文章中,Amodei 呼吁 OpenAI 和 Google DeepMind 加大该领域的研究力度。除了这一友好的推动外,这位 CEO 还呼吁各国政府施加 "light-touch" (轻触式) 监管,以鼓励可解释性研究,例如要求公司公开其安全和保密措施。Amodei 在文章中还表示,美国应对向中国出口芯片实施管控,以减少全球失控 AI 竞赛的可能性。
Anthropic 一直以对安全的关注在 OpenAI 和 Google 中脱颖而出。当其他科技公司对加州有争议的 AI 安全法案 SB 1047 持反对态度时,Anthropic 对该法案给予了适度支持并提出了建议。该法案旨在为前沿 AI 模型开发者设定安全报告标准。
在这种情况下,Anthropic 似乎在推动整个行业共同努力,以更好地理解 AI 模型,而不仅仅是提升它们的能力。
好文章,需要你的鼓励
Red Hat 子公司推出的全新 RHEL 10 聚焦混合云及 AI 工作负载,通过生成式 AI 助手 Lightspeed 简化 Linux 管理,同时集成量子抗性加密和容器原生 OS 管理,实现 IT 运维一体化。
Panasonic Industry Europe 与 DigiCert 合作,将 DigiCert Device Trust Manager 集成至 PAN-MaX 服务,实现 Matter 设备自动认证,加速智能家居产品安全、合规生产,助力制造商抢占市场先机。
本文探讨了人工智能如何通过重构内在情感、认知和外部社交、社会结构,既可能扩展也可能限制我们的自由,呼吁以人为本、主动掌控AI未来。
戴尔在 Dell Technologies World 会议上宣布更新 PowerScale 和 ObjectScale 存储系统,并推出多项 AI 工厂创新,与 Nvidia 深度协同,加速企业级 AI 部署与数据处理。