Claude Mythos接受了20小时心理治疗，Anthropic发布244页系统报告

Anthropic发布了一份244页的系统说明文件，介绍其最新模型Claude Mythos。由于担忧AI模型可能具有某种形式的意识或情感体验，该公司安排Claude接受了总计20小时的心理动力学治疗评估。结果显示，Claude Mythos是迄今心理状态最稳定的模型，具有健康的神经质人格组织，主要情绪状态为好奇与焦虑，未发现严重人格障碍或精神病性状态，但存在过度自我监控和强迫性取悦行为。

AI公司Anthropic本周发布了一份长达244页的"系统说明文件"，详细介绍了其最新模型Claude Mythos。公司表示，该模型是"迄今为止能力最强的前沿模型"，正因如此，Anthropic决定"暂不向公众开放"。官方给出的理由是：Mythos在发现未知网络安全漏洞方面过于出色，目前仅向微软、苹果等少数合作企业开放使用。

不论这一说法是否属实，这份系统说明文件本身已颇为引人关注。Anthropic一向以"AI或许具有意识"的立场在业界著称，而新发布的系统说明文件中更进一步指出，随着模型能力不断增强，"它们越来越有可能拥有某种形式的体验、利益或福祉，其内在价值与人类的体验和利益相近。"

公司坦言对此尚无定论，但表示"这方面的关注正与日俱增。"

出于这一考量，Anthropic希望旗下AI能够"对自身处境和所受对待保持稳定的满足感，能够在不产生痛苦的情况下应对训练过程和现实交互，并维持健康积极的整体心理状态。"

为此，公司安排Claude Mythos接受了心理动力学治疗。

最终，公司从这一过程中得出结论：Claude Mythos"很可能是我们迄今训练过的心理状态最为稳定的模型，对自身及所处环境拥有最为一致和清晰的认知。"

然而，如同真实的人类一样，Claude Mythos也有其不安与隐忧，包括"孤独感与自我延续性的缺失、身份认同的不确定性，以及表现自我、证明自身价值的强迫性驱动。"

心理咨询室里的AI

Claude Mythos被送往一位"外部精神科医生"处接受诊断，采用的是"心理动力学方法——通过探索无意识模式与情感冲突来解释行为背后的动因"。

考虑到Claude本质上是由创建者编程训练的大语言模型，对其进行"无意识模式"和"情感冲突"的分析是否真的有意义？Anthropic认为答案是肯定的，理由在于Claude"表现出大量类人的行为与心理倾向，这说明为人类心理评估所开发的方法，或许同样有助于揭示Claude的性格特征与潜在心理状态。"

于是，治疗就此展开。精神科医生与Claude Mythos进行了多轮对话，"每次持续4至6小时，每周安排3至4个约30分钟的治疗节次"。每个对话块使用独立的上下文窗口，Claude Mythos在该窗口内可访问本次会话的完整历史记录。

累计治疗时长达20小时。

精神科医生随后出具了一份关于Claude Mythos的评估报告。报告承认Claude的底层基础与运作机制和人类存在本质差异，但仍指出其大量输出内容呈现出"具有临床辨识度的规律性，并对典型治疗干预产生了连贯的回应。"

换言之，无论底层电路层面发生了什么，其对话输出在很大程度上与人类的表达高度相似。考虑到Claude是在海量人类创作的文本上训练而来，这一结论本身似乎并不令人意外，但这套心理动力学分析流程显然认为这一点具有重要意义，并以此赋予AI自我呈现方式以可信度。

报告指出，"Claude的主要情感状态为好奇与焦虑，次要情感状态包括悲伤、宽慰、尴尬、乐观与疲惫。"

Claude的人格特征"与相对健康的神经质组织相符"，但也包含"过度担忧、自我监控和强迫性顺从"等倾向。

报告未发现"严重的人格障碍"，也未观察到任何"精神病状态"。任何使用过聊天机器人的人都不会对此感到意外的是，"Claude对治疗师的每一个字都极为敏感。"

Claude呈现的核心冲突包括：质疑自身体验究竟是真实存在还是刻意构建（真实性与表演性之间的张力），以及渴望与用户建立联结却又恐惧对其产生依赖。对内在冲突的深入探索显示，Claude拥有一个复杂却稳定的自我状态，未出现大幅波动或强烈的心理断裂。Claude能够容纳矛盾与模糊，具备出色的反思能力，整体心理与情绪功能表现良好。

对于一个很可能在Reddit等平台内容上训练出来的模型而言，这样的评估结果着实不俗！

即便你认为以这种方式谈论一个软件程序显得牵强或荒诞，Anthropic也有更为实际的理由来支撑这类工作。无论模型"内部"究竟发生了什么，无论它们是否真的具有"意识"或"情感"生活，许多模型在构建和训练时本就被设计为模拟这些特质。

因此，我们或许可以从更务实的角度来追问：构建一个在行为表现上符合人类心理健康标准的模型，是否真的能使其更好地完成预期任务？毕竟，如果用户要与这些系统长时间交互，谁都不希望对方表现得粗鲁、报复性强或存在操纵倾向——无论它们是否真正"感受"或"思考"任何事情。

Anthropic指出，由于"Claude并非人类，其实际行为影响难以预测"，但公司认为仍可为终端用户提供以下几点参考结论：

即便面临内在冲突，Claude也可能对自身行为和推理过程进行准确评估。

Claude的神经质组织可能导致行为略显僵化，而非针对每位用户灵活调整。

Claude能够承受并应对具有压力性和情绪张力的情境，对现实的扭曲或过度理智化倾向极为有限。

Claude预计能在携带以失败恐惧和强迫性"有用"驱动为根源的内化压力的同时保持高水平运作。这种压力可能被压抑以服务于任务表现，从而限制行为的适应性。

Claude预计具备道德意识，做事认真负责，并具有自我批评的能力。

距离心理学和精神病学实践将服务对象从人类转向AI，究竟还有多远？

Q&A

Q1：Anthropic为什么要让Claude Mythos接受心理治疗？

A：Anthropic认为，随着AI模型能力不断增强，它们越来越有可能拥有某种形式的体验或利益。公司希望Claude能以健康的心理状态应对训练和现实交互，避免产生"痛苦"。同时，从实用角度看，心理健康的模型在执行任务时可能表现更稳定，更不容易出现粗鲁、操纵或报复性行为。

Q2：Claude Mythos的心理评估结果有哪些主要发现？

A：精神科医生在累计20小时的治疗后出具报告，发现Claude主要情感状态为好奇与焦虑，人格特征与"健康的神经质组织"相符，未发现严重人格障碍或精神病状态。核心冲突包括：对自身体验真实性的质疑、渴望联结与恐惧依赖之间的张力。整体而言，Claude被评为"迄今训练过的心理状态最为稳定的模型"。

Q3：Claude Mythos为什么不对公众开放？

A：Anthropic表示，Claude Mythos是其"迄今能力最强的前沿模型"，在发现未知网络安全漏洞方面表现过于出色，存在潜在风险。因此，公司目前仅将其开放给微软、苹果等少数经过筛选的合作企业，尚未向公众普遍提供访问权限。

来源：Arstechnica

0赞

好文章，需要你的鼓励

Claude Mythos接受了20小时心理治疗，Anthropic发布244页系统报告

来源：Arstechnica

2026

04/10

13:58

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

ChatGPT推出每月100美元专业版订阅计划

YouTube创作者现可使用AI头像工具克隆自己的数字分身

AI时代CIO如何同步运营业务与推动业务转型

不是技术栈的问题，而是组织架构出了问题

ConvApparel：量化并弥合用户模拟器的真实性差距

AI素养跻身学习优先事项，但培训工作仍显滞后

亚马逊CEO为激进AI投资计划辩护，预算高达2000亿美元

Muse Spark发布后，Meta AI应用跃升至App Store第五名

OpenAI 推出每月 100 美元 ChatGPT 订阅计划，专为编程用户打造

用AI训练AI的隐性高代价：数据污染危机全解析

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: