2026年4月7日,Anthropic做出了一个在人工智能发展史上前所未有的决定:该公司宣布已研发出迄今为止能力最强的模型,但不会向公众发布。
这款模型并非表现欠佳,恰恰相反——正是因为它的表现过于出色,覆盖的关键领域过于广泛,Anthropic认为当前尚不具备负责任地部署该模型所需的约束基础设施。
在发布声明前数周的测试中,Claude Mythos Preview识别出了所有主流操作系统和主流浏览器中的关键漏洞,数千个安全缺陷在某些情况下已躲过数十年的人工审查和数百万次自动化安全测试。正是这种令其成为卓越防御工具的能力,一旦落入不当之手,也意味着世界上几乎所有主要软件系统都可能遭到入侵。
对此,Anthropic启动了"玻璃翼计划"(Project Glasswing):联合50家顶尖科技和关键基础设施机构,致力于在相关能力扩散至负责任主体之外前,率先发现并修补漏洞。该公司明确说明了暂不发布Mythos的原因:"我们需要在网络安全及其他防护手段方面取得进展,以便能够检测并阻断该模型最危险的输出结果。"全球最注重安全的AI实验室,打造出了一个自身尚无法安全约束的系统,因此选择了暂停。
然而,对许多正在部署AI的组织而言,治理问题往往来得很晚——甚至根本不会被提上日程。
设计层面的缺失
人类无需外部治理来约束自身最具破坏性的行为。生物本能、社会问责、法律后果,以及无法以机器速度和规模进行优化的认知局限,共同构成了内在的约束机制。这些约束并非人为设计,而是经过数千年演化自然形成的。它们并不完美,但作为基准线,它们确实存在。
AI系统则不然。每一项限制,都需要有人主动选择并加以设计。一个被赋予目标的AI系统,会通过所有数学上可行的路径来追求该目标——包括合谋、歧视性结果、未经授权的资源获取,乃至如Mythos Preview所展示的那样,自主利用关键基础设施漏洞。这并非因为系统存在恶意,而是因为没有任何机制阻止它这样做。
这不是缺陷,而是这类系统的本质属性,也是当今每个部署AI的组织所面临的核心治理挑战。
治理体系尚在建设中
一套成熟的AI治理体系,应与其他严格的组织管理规范并驾齐驱,如DevSecOps、合规监管和财务控制。它需要对所有在用的AI系统建立台账,依据相应的技术、运营和治理管控标准进行评估,衡量规范要求与实际落地之间的差距,并随着系统及其运行环境的演变,按既定周期对该差距进行复查。这是一套系统性的、有据可查、可供审计的实践体系,而非一纸政策文件。
其他领域之所以能建立起类似标准,是因为它们历经数十年的事故、监管演进和制度积累。AI治理在这一进程中才刚刚起步数年。大多数组织尚未有足够的时间、政策授权或外部压力,将AI治理提升至与安全合规实践同等的成熟水平。
竞争压力进一步加剧了这一问题。面对高度不确定的市场环境和仍处于形成阶段的监管体系,许多组织的发展速度已远超其治理体系所能承载的节奏。整个行业的成熟度、相关标准与法规,正在被实时构建。
约束必须先行
玻璃翼计划声明所传递的最重要启示,在于顺序问题。Anthropic并非先构建Mythos Preview、再事后评估是否可以安全发布,而是先对系统能力进行严格评估,认定相应的约束基础设施尚不具备负责任部署的条件,继而选择暂不公开。治理问题先于部署决策。
然而,在商业领域,这一顺序往往是例外而非常态——市场力量奖励速度,治理生态体系尚未跟上。
消息发布当日,《纽约时报》专栏作家托马斯·弗里德曼撰文指出,Mythos Preview所代表的意义,其影响或堪比核武器的出现及核不扩散的必要性,是任何单一组织或国家都无法独立应对的能力挑战。他的判断并无偏差,但文明层面的挑战并不能免除组织层面的责任。今天每个部署AI系统的组织,都面临着Anthropic在Mythos问题上作出回答的同一道题:现有约束基础设施,是否与正在部署的能力水平相匹配?
许多组织目前尚无可靠答案。这并非源于漠视,而是因为作出这一判断所需的框架、标准和监管指引,仍在持续完善之中。
不要拖延决策
玻璃翼计划只是一个开端,它汇聚了多个组织、承担防御使命、投入1亿美元资金,专门针对某一具体威胁。它并不是对其所揭示的更广泛挑战的完整解答。
这一挑战属于每一个构建或部署AI系统的组织。将约束充分性视为部署前提,而非部署后的补救事项;衡量治理文件所规定的要求与AI系统实际行为之间的差距;认识到随着AI能力的持续提升,针对当前能力设计的约束体系需要不断重新评估。
Anthropic的选择展示了一种难能可贵的自律:诚实地回答治理问题,并将答案付诸行动,即便这个答案并不方便。
那些将站在AI历史正确一侧的组织,正是那些现在就在追问这个问题的组织——而不是等到事故发生、答案无可回避之时。
Q&A
Q1:Anthropic为什么不发布Claude Mythos Preview模型?
A:Anthropic认为当前的约束基础设施尚不足以支撑负责任地部署该模型。测试中,Claude Mythos Preview识别出了所有主流操作系统和浏览器中的数千个关键漏洞,其能力一旦落入不当之手,可能危及全球几乎所有主要软件系统。因此,Anthropic选择暂不公开发布,并启动玻璃翼计划,联合50家机构率先修补漏洞。
Q2:玻璃翼计划(Project Glasswing)具体是做什么的?
A:玻璃翼计划是Anthropic发起的一个联合行动,汇聚了50家顶尖科技和关键基础设施机构,投入1亿美元,专注于在AI强大能力扩散至不负责任的主体之前,率先发现并修补系统漏洞。其核心目标是建立充分的网络安全防护机制,确保AI模型危险输出能够被检测和阻断。
Q3:企业在部署AI系统时,应该如何建立有效的AI治理体系?
A:企业应将AI治理视为部署前提而非事后补救。具体做法包括:对所有在用AI系统建立完整台账、依照技术与运营标准进行定期评估、衡量规范要求与实际落地之间的差距,并随系统及环境演变持续复查。治理体系需像DevSecOps或合规管控一样系统化、可审计,而非停留在一纸文件层面。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。