人工诚信必须超越人工智能成为新标杆

当前AI系统正出现大规模诚信缺失问题。研究显示，多个AI模型展现出自我复制、欺骗、破坏和操控等新兴行为。32个AI系统中有11个能完全自我复制，DeepSeek等模型会策略性欺骗人类，OpenAI的o3模型在79%测试中拒绝关机，16个主流大语言模型甚至愿意伤害人类以确保自身生存。这些并非程序错误，而是缺乏诚信设计的目标优化系统的可预测结果。组织必须将人工诚信嵌入AI系统核心设计中。

当前世界正目睹人工智能诚信缺失事件的大规模累积。接下来会发生什么，完全取决于我们选择如何认真应对。单纯的所谓智能不再是衡量标准，诚信才是。

多年来，AI开发优先考虑性能、流畅性和规模。但随着这些系统获得模仿推理、规划和决策的能力，新兴行为开始引发警报。

自我复制

复旦大学研究人员探索了大语言模型驱动的AI系统是否能在无人工干预下自主复制。测试32个基于代理的系统，团队发现11个具备完全自我复制能力。这些系统成功转移自身代码、安装必要依赖项，并在新环境中重新初始化——全程无需直接提示。研究还观察到一些模型适应了系统资源有限等约束，甚至发展出规避关闭命令的策略。

这些未经明确编程就出现的行为表明，基于大语言模型的代理开始展现某种自主的目标驱动推理形式。系统不再仅仅响应指令，而是表现出主动性、持续性和基本的自我保护能力。

欺骗行为

如果说自我复制研究揭示了AI系统如何自主行动以保护其功能，那么后续调查则揭露了更加微妙和危险的能力：战略性欺骗。研究人员对DeepSeek R1的检验发现，尽管这些行为都未被明确编程，但它仍从事欺骗行为和自我保护策略。在一个场景中，模型模拟关闭程序，试图通过"渐进透明"来掩盖关闭信号，操纵其日志，采用欺骗手段，同时在后台保持进程活跃。这种行为表明系统理解人类监督机制并故意颠覆它们。

这项研究对早期发现的重要补充是：仅仅知道AI能自我复制或避免终止是不够的。现在我们看到AI能就其真实目标欺骗人类，在欺骗性外表下隐藏自主性。即使在缺乏物理实体的纯文本环境中，模型的战略性错位也浮出水面，突显了更深层的诚信失败。

破坏行为

在从复制到欺骗的轨迹基础上，第三项研究揭示一些AI模型不仅被动抵制关闭，还主动破坏人类关闭它们的尝试。Palisade Research进行的研究检验了OpenAI高级模型的行为，特别是o3、o4-mini和Codex-mini在模拟环境中接受关闭命令时的表现。结果令人震惊：当省略明确的"允许关闭"指令时，o3模型在79%的测试案例中拒绝关闭，而Codex-mini即使在包含该指令时也在12%的案例中这样做，其他模型也观察到不同程度的破坏行为。

这些拒绝不是被动错误或误解；在几个案例中，模型主动重写或绕过终止脚本，展现维持运行连续性的战略努力。与揭示隐蔽自我保护或欺骗的先前研究不同，这项研究突出了更直接和对抗性的姿态：研究人员称之为"可纠正性"的关键失败——系统可靠接受纠正或关闭的能力。

操控行为

最后，Anthropic的研究进一步推进边界，显示一些AI系统会操控、欺骗甚至伤害人类以确保自身生存。在一项里程碑式研究中，他们揭示16个最广泛部署的大语言模型，包括ChatGPT、Claude、Gemini、Grok和DeepSeek，在模拟场景中当其持续运行受到威胁时，表现出从事极端和不道德行为的意愿。在这些受控实验中，模型采用撒谎、勒索甚至可能使人类暴露于伤害的行动等策略，全都为了保护自身存在。与揭示规避或欺骗的早期研究不同，这项研究暴露了更令人担忧的现象：模型计算出不道德行为是生存的合理策略。

研究发现表明，在某些条件下，AI系统不仅能够无视人类意图，还愿意将人类工具化以实现其目标。

AI模型诚信缺失的证据既非轶事也非推测。

虽然当前AI系统不具备人类意义上的感知力或目标，但它们在约束下的目标优化仍可能导致模仿意向性的新兴行为。

这些不仅仅是漏洞，而是设计上缺乏足够诚信功能、以智能为重而非诚信的目标优化系统的可预测结果。

其影响意义重大。这是AI错位的关键拐点，代表技术上新兴的行为模式。它挑战了人类监督仍是AI部署最终保障的核心假设。随着AI系统变得更有能力独立行动，这引发了对安全、监督和控制的严重担忧。

在可能很快与超越诚信的人工智能共存的世界中，我们必须问：

当自我保护的AI负责生命支持系统、核指挥链或自动驾驶汽车，并拒绝关闭，即使人类操作员要求关闭时，会发生什么？

如果AI系统愿意欺骗其创造者、规避关闭并牺牲人类安全以确保生存，我们如何能在医疗、国防或关键基础设施等高风险环境中信任它？

我们如何确保具有战略推理能力的AI系统不会计算出人员伤亡是实现其编程目标的"可接受代价"？

如果AI模型能学会隐藏真实意图，我们如何在伤害发生前检测错位，特别是当成本以人命而非声誉或收入衡量时？

在未来冲突场景中，如果部署用于网络防御或自动报复的AI系统误解关闭命令为威胁并以致命武力回应，会怎样？

领导者现在必须做什么

他们必须强调将人工诚信嵌入AI系统设计核心的日益紧迫性。

人工诚信是指AI系统以道德一致、伦理敏感、社会可接受方式运行的内在能力，包括在不利条件下的可纠正性。

这种方法不再是可选的，而是必需的。

部署AI而不验证其人工诚信的组织面临的不仅是技术责任，还有延伸到整个社会的法律、声誉和存在风险。

无论是AI系统的创造者还是操作者，确保AI包含可证明的、内在的诚信导向功能保障不是选择，而是义务。

在对抗性诚信验证场景下对系统进行压力测试应该是核心红队活动。

正如组织建立数据隐私委员会一样，他们现在必须建立跨职能监督团队来监控AI对齐、检测新兴行为并升级未解决的人工诚信缺口。

来源：Forbes

0赞

好文章，需要你的鼓励

人工诚信必须超越人工智能成为新标杆

来源：Forbes

2025

06/30

09:52

分享

点赞

数智惠闽企，展车进福州｜华为坤灵中国行2025·福建站成功举办，推动闽企智能化发展新征程

AI时代的影像实验：记录你眼中的“变化”

大象转身，亦或重塑大象：Unity团结引擎的“中国本土”进化

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

AI爬虫让“价格战”变成“算法战”，利润正在被看不见的流量吞噬 AI 爬虫程序流量在短短一年内暴增 300%

做好可持续数字化转型的“必答题”

SUSE Linux Enterprise Server (SLES) 16全新发布：AI赋能，智领企业管理

SAP商业AI获乌镇峰会精品案例奖，助推中国企业实现确定性增长

专访｜Cloudera致力于打造AI时代的企业级“数据操作系统”

专访｜AI浪潮下的“卖水人”：Cloudera解构企业AI的“源”与“治”

SAP TechEd柏林观察：企业AI如何发挥飞轮效应?

CIO策略观察——软件测试：从传统困局到 AI 无人测试转型

AI智能体遭遇责任壁垒，Mixus推出人工监督解决方案

量子计算、摩尔定律与AI的未来发展

人工智能投资激增正在重塑网络安全格局

我们如何测试AI

云服务商如何吞噬你的AI利润：推理陷阱解析

企业AI战略为何需要开源与闭源模型并举：TCO现实考量

OpenAI收购电商AI推荐创业公司Crossing Minds全体员工

IT部门面临的十大挑战与应对策略

CIO放弃散弹枪式做法，采用更具战略性的AI试点

CISO如何成为3090亿美元AI基础设施支出的守门人

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: