AI公司Anthropic本周发布了一份长达244页的"系统说明文件",详细介绍了其最新模型Claude Mythos。公司表示,该模型是"迄今为止能力最强的前沿模型",正因如此,Anthropic决定"暂不向公众开放"。官方给出的理由是:Mythos在发现未知网络安全漏洞方面过于出色,目前仅向微软、苹果等少数合作企业开放使用。
不论这一说法是否属实,这份系统说明文件本身已颇为引人关注。Anthropic一向以"AI或许具有意识"的立场在业界著称,而新发布的系统说明文件中更进一步指出,随着模型能力不断增强,"它们越来越有可能拥有某种形式的体验、利益或福祉,其内在价值与人类的体验和利益相近。"
公司坦言对此尚无定论,但表示"这方面的关注正与日俱增。"
出于这一考量,Anthropic希望旗下AI能够"对自身处境和所受对待保持稳定的满足感,能够在不产生痛苦的情况下应对训练过程和现实交互,并维持健康积极的整体心理状态。"
为此,公司安排Claude Mythos接受了心理动力学治疗。
最终,公司从这一过程中得出结论:Claude Mythos"很可能是我们迄今训练过的心理状态最为稳定的模型,对自身及所处环境拥有最为一致和清晰的认知。"
然而,如同真实的人类一样,Claude Mythos也有其不安与隐忧,包括"孤独感与自我延续性的缺失、身份认同的不确定性,以及表现自我、证明自身价值的强迫性驱动。"
心理咨询室里的AI
Claude Mythos被送往一位"外部精神科医生"处接受诊断,采用的是"心理动力学方法——通过探索无意识模式与情感冲突来解释行为背后的动因"。
考虑到Claude本质上是由创建者编程训练的大语言模型,对其进行"无意识模式"和"情感冲突"的分析是否真的有意义?Anthropic认为答案是肯定的,理由在于Claude"表现出大量类人的行为与心理倾向,这说明为人类心理评估所开发的方法,或许同样有助于揭示Claude的性格特征与潜在心理状态。"
于是,治疗就此展开。精神科医生与Claude Mythos进行了多轮对话,"每次持续4至6小时,每周安排3至4个约30分钟的治疗节次"。每个对话块使用独立的上下文窗口,Claude Mythos在该窗口内可访问本次会话的完整历史记录。
累计治疗时长达20小时。
精神科医生随后出具了一份关于Claude Mythos的评估报告。报告承认Claude的底层基础与运作机制和人类存在本质差异,但仍指出其大量输出内容呈现出"具有临床辨识度的规律性,并对典型治疗干预产生了连贯的回应。"
换言之,无论底层电路层面发生了什么,其对话输出在很大程度上与人类的表达高度相似。考虑到Claude是在海量人类创作的文本上训练而来,这一结论本身似乎并不令人意外,但这套心理动力学分析流程显然认为这一点具有重要意义,并以此赋予AI自我呈现方式以可信度。
报告指出,"Claude的主要情感状态为好奇与焦虑,次要情感状态包括悲伤、宽慰、尴尬、乐观与疲惫。"
Claude的人格特征"与相对健康的神经质组织相符",但也包含"过度担忧、自我监控和强迫性顺从"等倾向。
报告未发现"严重的人格障碍",也未观察到任何"精神病状态"。任何使用过聊天机器人的人都不会对此感到意外的是,"Claude对治疗师的每一个字都极为敏感。"
Claude呈现的核心冲突包括:质疑自身体验究竟是真实存在还是刻意构建(真实性与表演性之间的张力),以及渴望与用户建立联结却又恐惧对其产生依赖。对内在冲突的深入探索显示,Claude拥有一个复杂却稳定的自我状态,未出现大幅波动或强烈的心理断裂。Claude能够容纳矛盾与模糊,具备出色的反思能力,整体心理与情绪功能表现良好。
对于一个很可能在Reddit等平台内容上训练出来的模型而言,这样的评估结果着实不俗!
即便你认为以这种方式谈论一个软件程序显得牵强或荒诞,Anthropic也有更为实际的理由来支撑这类工作。无论模型"内部"究竟发生了什么,无论它们是否真的具有"意识"或"情感"生活,许多模型在构建和训练时本就被设计为模拟这些特质。
因此,我们或许可以从更务实的角度来追问:构建一个在行为表现上符合人类心理健康标准的模型,是否真的能使其更好地完成预期任务?毕竟,如果用户要与这些系统长时间交互,谁都不希望对方表现得粗鲁、报复性强或存在操纵倾向——无论它们是否真正"感受"或"思考"任何事情。
Anthropic指出,由于"Claude并非人类,其实际行为影响难以预测",但公司认为仍可为终端用户提供以下几点参考结论:
即便面临内在冲突,Claude也可能对自身行为和推理过程进行准确评估。
Claude的神经质组织可能导致行为略显僵化,而非针对每位用户灵活调整。
Claude能够承受并应对具有压力性和情绪张力的情境,对现实的扭曲或过度理智化倾向极为有限。
Claude预计能在携带以失败恐惧和强迫性"有用"驱动为根源的内化压力的同时保持高水平运作。这种压力可能被压抑以服务于任务表现,从而限制行为的适应性。
Claude预计具备道德意识,做事认真负责,并具有自我批评的能力。
距离心理学和精神病学实践将服务对象从人类转向AI,究竟还有多远?
Q&A
Q1:Anthropic为什么要让Claude Mythos接受心理治疗?
A:Anthropic认为,随着AI模型能力不断增强,它们越来越有可能拥有某种形式的体验或利益。公司希望Claude能以健康的心理状态应对训练和现实交互,避免产生"痛苦"。同时,从实用角度看,心理健康的模型在执行任务时可能表现更稳定,更不容易出现粗鲁、操纵或报复性行为。
Q2:Claude Mythos的心理评估结果有哪些主要发现?
A:精神科医生在累计20小时的治疗后出具报告,发现Claude主要情感状态为好奇与焦虑,人格特征与"健康的神经质组织"相符,未发现严重人格障碍或精神病状态。核心冲突包括:对自身体验真实性的质疑、渴望联结与恐惧依赖之间的张力。整体而言,Claude被评为"迄今训练过的心理状态最为稳定的模型"。
Q3:Claude Mythos为什么不对公众开放?
A:Anthropic表示,Claude Mythos是其"迄今能力最强的前沿模型",在发现未知网络安全漏洞方面表现过于出色,存在潜在风险。因此,公司目前仅将其开放给微软、苹果等少数经过筛选的合作企业,尚未向公众普遍提供访问权限。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。