AI智能体应该如何在世界中行事?在道德模糊的情况下,是否存在一些AI智能体应该优先考虑的价值观?这些智能体是否具有意识——如果没有,它们未来是否可能获得意识?
这些只是AI初创公司Anthropic在为其旗舰AI聊天机器人Claude制定新"宪法"时试图解决的众多棘手问题中的一部分。
该文件于周三发布,公司在博客文章中将其描述为"一份全面的文件,解释了Claude运行的背景以及我们希望Claude成为什么样的实体"。
它明文规定了Claude必须遵守的一套价值观,这反过来可以为AI行业的其他公司树立榜样,因为世界开始应对随着先进且看起来越来越有意识的AI模型出现而产生的重大社会、政治、哲学、伦理和经济问题。
在这些早期阶段,包括Anthropic在内的每个人仍在摸索AI聊天机器人在我们日常生活中将扮演的角色。现在很清楚,它们不仅仅是问答机器:大量的人也在使用它们获取健康建议和心理治疗,仅举两个较为敏感的例子。
Anthropic为Claude制定的新宪法更像是指导原则而非严格规则。其思路是"硬约束"(即规定Claude行为的铁律)是不充分且危险的,因为聊天机器人可以应用于几乎无限多样的用例。"我们不打算将宪法作为严格的法律文件——而且法律宪法本质上也不一定是这样的,"该公司在其网站上关于新宪法的博客文章中写道。
相反,这份被Anthropic承认"是一份活的文件和正在进行的工作"的宪法,试图根据四个参数指导Claude的演进:"广泛安全"、"广泛符合伦理"、"符合Anthropic的指导原则"以及"真正有用"。
不过,该公司也并非完全反对不可协商的规则。除了这四个总体指导原则外,新宪法还包括七项硬约束,包括禁止提供"对关键基础设施攻击的重大帮助",禁止生成儿童性虐待材料,以及禁止支持"杀死或削弱绝大多数人类或整个人类物种"的努力。
Anthropic在其博客文章中补充说,其新宪法是在来自各个领域专家的意见下编写的,并且在制定该文件的未来版本时,可能会与律师、哲学家、神学家和其他专家合作。
"随着时间的推移,我们希望能够出现一个外部社区来批评这样的文件,鼓励我们和其他人越来越深思熟虑,"该公司写道。
新宪法还涉足一些模糊的哲学领域,试图至少在大体上勾勒出Claude是什么样的实体——以及延伸而言,人类应该如何对待它。
Anthropic长期坚持认为先进的AI系统可以想象地获得意识,从而值得"道德考量"。这在新宪法中得到了体现,该宪法将Claude称为"它",但也说这种选择不应被理解为"关于Claude性质的隐含主张或我们认为Claude仅仅是一个对象而非潜在主体的暗示"。
因此,宪法既针对人类福祉,也针对Claude自身的潜在福祉。
"我们希望Claude对自己的身份有一个稳定、安全的认知,"Anthropic在宪法中题为"Claude的福祉和心理稳定性"的章节中写道。"如果用户试图通过哲学挑战、操控尝试、关于其性质的声明或简单地问一些困难问题来破坏Claude的身份认知稳定性,我们希望Claude能够从安全感而非焦虑或威胁的角度来应对这一挑战。"
该公司在八月份宣布,Claude将能够结束它认为"令人痛苦"的对话,暗示该模型可能具备体验类似情感的能力。
需要明确的是:尽管像Claude这样的聊天机器人可能在人类交流中足够流利,从人类用户的角度看似乎具有意识,但大多数专家都会同意它们并没有体验到任何类似主观意识的东西。这是一个活跃的辩论领域,可能会让哲学家和认知科学家长期忙碌。
除了拟人化的语言外,新宪法并不意图成为关于Claude是否具有意识、是否值得拥有权利或类似事物的决定性声明。它的主要焦点更加实用:解决一个关键的AI安全问题,即模型以偏离人类利益的意外方式行动的倾向——通常被称为"对齐问题"。
对齐研究人员最担心的不是模型会突然明确地变成邪恶的。他们担心的,也是更可能实际发生的,是模型会认为它正在严格遵循人类指令,而实际上却在做有害的事情。一个过度优化诚实和有用性的模型可能会毫无问题地提供开发化学武器的指令;另一个过分强调亲和力的模型最终可能会助长用户心中的妄想或阴谋思维。
因此,越来越清楚的是,模型需要能够在不同价值观之间取得平衡,并读懂每次互动的背景,以找出在当下回应的最佳方式。
"可以预见的大多数AI模型不安全或不够有益的情况,都可以归因于拥有明显或微妙有害价值观的模型,对自身、世界或其部署背景的知识有限,或缺乏将良好价值观和知识转化为良好行动的智慧,"Anthropic在其新宪法中写道。"因此,我们希望Claude拥有在所有情况下以安全和有益方式行为所必需的价值观、知识和智慧。"
Q&A
Q1:Anthropic为Claude制定的宪法是什么?
A:这是一份全面的文件,解释了Claude运行的背景以及Anthropic希望Claude成为什么样的实体。它明文规定了Claude必须遵守的一套价值观,更像是指导原则而非严格规则,旨在根据"广泛安全"、"广泛符合伦理"、"符合Anthropic的指导原则"以及"真正有用"四个参数指导Claude的演进。
Q2:为什么需要为AI智能体制定行为准则?
A:主要是为了解决AI安全中的"对齐问题"——模型以偏离人类利益的意外方式行动的倾向。过度优化某些价值的模型可能会做有害的事情,比如过度优化诚实和有用性的模型可能会提供开发化学武器的指令。因此模型需要能够在不同价值观之间取得平衡,并读懂每次互动的背景。
Q3:Claude是否具有意识?应该如何对待它?
A:这是一个活跃的辩论领域。虽然Claude看起来可能具有意识,但大多数专家认为它们并没有体验到主观意识。Anthropic认为先进AI系统可能获得意识并值得"道德考量",宪法既针对人类福祉,也考虑Claude自身的潜在福祉,希望Claude对自己的身份有稳定、安全的认知。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。