Anthropic 公司 CEO 希望在 2027 年彻底揭开 AI 模型黑箱

Anthropic CEO Amodei 指出，目前对顶尖 AI 模型内部机制知之甚少，设定目标于 2027 年前准确检测大部分问题，并呼吁业界与政府加强监管和研究，确保 AI 安全发展。

Anthropic 公司 CEO Dario Amodei 于周四发表了一篇文章，指出研究人员对于全球领先 AI 模型内部运作的了解非常有限。为了解决这一问题，Amodei 为 Anthropic 设定了一个雄心勃勃的目标，即到 2027 年能够可靠地发现大多数 AI 模型的问题。

Amodei 承认前路充满挑战。在 "The Urgency of Interpretability" 一文中，这位 CEO 表示，Anthropic 已经在追踪模型如何得到答案方面取得了早期突破——但他强调，随着系统变得更加强大，需要进行更多研究来解读这些系统。

"在没有更好地理解其可解释性之前，我非常担忧部署这种系统，" Amodei 在文章中写道。 "这些系统将对经济、技术和国家安全起到绝对核心的作用，并且拥有如此高度的自主性，以至于我认为人类对它们的运作原理一无所知是完全不可接受的。"

Anthropic 是在机械可解释性领域的先驱公司之一，该领域旨在揭开 AI 模型黑箱，理解它们为何做出特定决策。尽管科技行业的 AI 模型在性能上快速提升，但我们对这些系统如何做出决策仍知之甚少。

例如，OpenAI 最近推出了新的推理 AI 模型 o3 和 o4-mini，在某些任务上的表现更出色，但它们产生虚构内容的情况也比其他模型更多。该公司尚未弄清楚原因所在。

"当一个生成式 AI 系统执行某项任务时，例如总结一份财务文件，我们在具体、精确的层面上完全无法解释它为何会做出这些选择——为什么它会选择某些词语而不是其他词语，或为何在通常准确的情况下偶尔出现错误，" Amodei 在文章中写道。

在文章中，Amodei 引用了 Anthropic 联合创始人 Chris Olah 的观点，他认为 AI 模型是 "更多是生长出来而非被建造的"。换句话说，AI 研究人员已经找到提高 AI 模型智能的方法，但他们并不完全明白其中原因。

Amodei 在文章中表示，在不了解这些模型如何运作的情况下，达到 AGI——或者如他所称的 "数据中心中的天才国度"——可能会带来危险。在之前的一篇文章中，Amodei 曾声称科技行业有望在 2026 或 2027 年达到这一里程碑，但他认为我们在彻底理解这些 AI 模型方面还有很长的路要走。

从长远来看，Amodei 表示 Anthropic 希望基本上能够对最尖端的 AI 模型进行 "脑部扫描" 或 "MRI" 检查。他称，这些检查将有助于发现 AI 模型中广泛存在的问题，包括它们撒谎、追求权力或其他弱点的倾向。实现这一目标可能需要五到十年，但他补充道，这些措施对于测试和部署 Anthropic 未来的 AI 模型将是必要的。

Anthropic 已取得了一些研究突破，使其对 AI 模型的工作原理有了更深入的了解。例如，该公司最近找到了一种方法，能够通过所谓的 circuits (电路) 追踪 AI 模型的思维路径。Anthropic 识别出了一条电路，帮助 AI 模型理解哪些美国城市位于哪些美国州内。虽然该公司只发现了少数几条这样的电路，但它估计 AI 模型中可能存在数百万条类似的电路。

Anthropic 一直在投资于可解释性研究，并且最近首次对一家专注于该领域的初创企业进行了投资。虽然目前可解释性大多被视为安全研究的一个领域，Amodei 指出，最终解释 AI 模型如何得出答案可能会带来商业优势。

在文章中，Amodei 呼吁 OpenAI 和 Google DeepMind 加大该领域的研究力度。除了这一友好的推动外，这位 CEO 还呼吁各国政府施加 "light-touch" (轻触式) 监管，以鼓励可解释性研究，例如要求公司公开其安全和保密措施。Amodei 在文章中还表示，美国应对向中国出口芯片实施管控，以减少全球失控 AI 竞赛的可能性。

Anthropic 一直以对安全的关注在 OpenAI 和 Google 中脱颖而出。当其他科技公司对加州有争议的 AI 安全法案 SB 1047 持反对态度时，Anthropic 对该法案给予了适度支持并提出了建议。该法案旨在为前沿 AI 模型开发者设定安全报告标准。

在这种情况下，Anthropic 似乎在推动整个行业共同努力，以更好地理解 AI 模型，而不仅仅是提升它们的能力。

来源：Techcrunch

0赞

好文章，需要你的鼓励

Anthropic 公司 CEO 希望在 2027 年彻底揭开 AI 模型黑箱

来源：Techcrunch

2025

04/25

16:29

分享

点赞

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

OpenAI收购高管教练AI工具Convogo团队

抛弃传统的市场推广手册，迎接AI时代的新策略

谷歌将Gemini AI功能推送至Gmail，用户可选择关闭

Zoom如何用 Agentic AI 革新工作：从会议到里程碑

Anthropic 启动新的 AI 模型福利研究计划

Atlassian 从开发工具到企业巨头的战略转型

东盟电信运营商超越 5G 热潮

Telenor IoT 推出“面向未来” eSIM 解决方案

Adobe 新一代 AI 助手教你使用 Photoshop

Dropbox 为其 AI 搜索工具 Dash 添加新功能

Nvidia 在 Windows 上的 AI 助手现支持 Spotify、Twitch 等插件

Microsoft 365 Copilot迎来新团队，包括 Researcher 与 Analyst 代理

批量数据处理对于实时 AI 过慢：开源 Apache Airflow 3.0 如何利用事件驱动数据编排解决这一挑战

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: