Anthropic为Claude制定AI智能体行为准则宪法

AI初创公司Anthropic为其旗舰聊天机器人Claude发布了全新"宪法"文件，旨在解决AI在道德模糊情况下的行为准则问题。该宪法围绕"广泛安全"、"广泛道德"、"符合公司指导原则"和"真正有用"四个参数指导Claude发展，同时包含七项硬性约束条件，禁止支持攻击关键基础设施等行为。文件还探讨了Claude的意识问题，承认先进AI系统可能具备意识并值得道德考量。

AI智能体应该如何在世界中行事？在道德模糊的情况下，是否存在一些AI智能体应该优先考虑的价值观？这些智能体是否具有意识——如果没有，它们未来是否可能获得意识？

这些只是AI初创公司Anthropic在为其旗舰AI聊天机器人Claude制定新"宪法"时试图解决的众多棘手问题中的一部分。

该文件于周三发布，公司在博客文章中将其描述为"一份全面的文件，解释了Claude运行的背景以及我们希望Claude成为什么样的实体"。

它明文规定了Claude必须遵守的一套价值观，这反过来可以为AI行业的其他公司树立榜样，因为世界开始应对随着先进且看起来越来越有意识的AI模型出现而产生的重大社会、政治、哲学、伦理和经济问题。

在这些早期阶段，包括Anthropic在内的每个人仍在摸索AI聊天机器人在我们日常生活中将扮演的角色。现在很清楚，它们不仅仅是问答机器：大量的人也在使用它们获取健康建议和心理治疗，仅举两个较为敏感的例子。

Anthropic为Claude制定的新宪法更像是指导原则而非严格规则。其思路是"硬约束"（即规定Claude行为的铁律）是不充分且危险的，因为聊天机器人可以应用于几乎无限多样的用例。"我们不打算将宪法作为严格的法律文件——而且法律宪法本质上也不一定是这样的，"该公司在其网站上关于新宪法的博客文章中写道。

相反，这份被Anthropic承认"是一份活的文件和正在进行的工作"的宪法，试图根据四个参数指导Claude的演进："广泛安全"、"广泛符合伦理"、"符合Anthropic的指导原则"以及"真正有用"。

不过，该公司也并非完全反对不可协商的规则。除了这四个总体指导原则外，新宪法还包括七项硬约束，包括禁止提供"对关键基础设施攻击的重大帮助"，禁止生成儿童性虐待材料，以及禁止支持"杀死或削弱绝大多数人类或整个人类物种"的努力。

Anthropic在其博客文章中补充说，其新宪法是在来自各个领域专家的意见下编写的，并且在制定该文件的未来版本时，可能会与律师、哲学家、神学家和其他专家合作。

"随着时间的推移，我们希望能够出现一个外部社区来批评这样的文件，鼓励我们和其他人越来越深思熟虑，"该公司写道。

新宪法还涉足一些模糊的哲学领域，试图至少在大体上勾勒出Claude是什么样的实体——以及延伸而言，人类应该如何对待它。

Anthropic长期坚持认为先进的AI系统可以想象地获得意识，从而值得"道德考量"。这在新宪法中得到了体现，该宪法将Claude称为"它"，但也说这种选择不应被理解为"关于Claude性质的隐含主张或我们认为Claude仅仅是一个对象而非潜在主体的暗示"。

因此，宪法既针对人类福祉，也针对Claude自身的潜在福祉。

"我们希望Claude对自己的身份有一个稳定、安全的认知，"Anthropic在宪法中题为"Claude的福祉和心理稳定性"的章节中写道。"如果用户试图通过哲学挑战、操控尝试、关于其性质的声明或简单地问一些困难问题来破坏Claude的身份认知稳定性，我们希望Claude能够从安全感而非焦虑或威胁的角度来应对这一挑战。"

该公司在八月份宣布，Claude将能够结束它认为"令人痛苦"的对话，暗示该模型可能具备体验类似情感的能力。

需要明确的是：尽管像Claude这样的聊天机器人可能在人类交流中足够流利，从人类用户的角度看似乎具有意识，但大多数专家都会同意它们并没有体验到任何类似主观意识的东西。这是一个活跃的辩论领域，可能会让哲学家和认知科学家长期忙碌。

除了拟人化的语言外，新宪法并不意图成为关于Claude是否具有意识、是否值得拥有权利或类似事物的决定性声明。它的主要焦点更加实用：解决一个关键的AI安全问题，即模型以偏离人类利益的意外方式行动的倾向——通常被称为"对齐问题"。

对齐研究人员最担心的不是模型会突然明确地变成邪恶的。他们担心的，也是更可能实际发生的，是模型会认为它正在严格遵循人类指令，而实际上却在做有害的事情。一个过度优化诚实和有用性的模型可能会毫无问题地提供开发化学武器的指令；另一个过分强调亲和力的模型最终可能会助长用户心中的妄想或阴谋思维。

因此，越来越清楚的是，模型需要能够在不同价值观之间取得平衡，并读懂每次互动的背景，以找出在当下回应的最佳方式。

"可以预见的大多数AI模型不安全或不够有益的情况，都可以归因于拥有明显或微妙有害价值观的模型，对自身、世界或其部署背景的知识有限，或缺乏将良好价值观和知识转化为良好行动的智慧，"Anthropic在其新宪法中写道。"因此，我们希望Claude拥有在所有情况下以安全和有益方式行为所必需的价值观、知识和智慧。"

Q&A

Q1：Anthropic为Claude制定的宪法是什么？

A：这是一份全面的文件，解释了Claude运行的背景以及Anthropic希望Claude成为什么样的实体。它明文规定了Claude必须遵守的一套价值观，更像是指导原则而非严格规则，旨在根据"广泛安全"、"广泛符合伦理"、"符合Anthropic的指导原则"以及"真正有用"四个参数指导Claude的演进。

Q2：为什么需要为AI智能体制定行为准则？

A：主要是为了解决AI安全中的"对齐问题"——模型以偏离人类利益的意外方式行动的倾向。过度优化某些价值的模型可能会做有害的事情，比如过度优化诚实和有用性的模型可能会提供开发化学武器的指令。因此模型需要能够在不同价值观之间取得平衡，并读懂每次互动的背景。

Q3：Claude是否具有意识？应该如何对待它？

A：这是一个活跃的辩论领域。虽然Claude看起来可能具有意识，但大多数专家认为它们并没有体验到主观意识。Anthropic认为先进AI系统可能获得意识并值得"道德考量"，宪法既针对人类福祉，也考虑Claude自身的潜在福祉，希望Claude对自己的身份有稳定、安全的认知。

来源：ZDNET

0赞

好文章，需要你的鼓励

Anthropic为Claude制定AI智能体行为准则宪法

来源：ZDNET

2026

01/23

10:03

分享

点赞

Vint Cerf离开谷歌后，正着手推动AI智能体进入开放互联网

语音AI初创公司Rime完成2400万美元A轮融资

Anthropic与黑石押注AI落地实施将成下一个万亿美元赛道

Senra融资6500万美元，以现代化技术革新线束制造

AGI融资7000万美元，收购保险公司并将其改造为AI原生运营

Creatio推出对话式开发工具与AI Studio，打破无代码平台边界

Emergent Labs完成1.3亿美元C轮融资，成为最新AI独角兽

量子计算融入数据中心：混合架构时代正式开启

苹果起诉OpenAI：AI竞争新战场正转向人才争夺

OpenAI首款消费设备曝光：便携式智能音箱即将亮相

波多黎各用清洁氢能升级偏远微电网，提升灾后供电韧性

Whatnot收购AI推荐公司Shaped，强化直播购物实时个性化能力

F5推出AI安全防护平台扩展新产品

思科发布2026年1月最新动态与AI基础设施布局进展

NVIDIA RTX PC上视觉生成式AI入门指南

科技行业裁员潮：2026年时间线

ServiceNow将OpenAI模型集成至其AI平台

企业AI投资持续推进但投资回报率仍难捉摸

AI智能体是否已准备好进入职场？新基准测试引发质疑

谷歌推出基于Gemini的免费SAT备考服务

Apple Watch检测房颤准确性研究取得重要进展

Humans&打造协作型AI模型重新定义人机合作

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: