在更新 Preparedness Framework ( OpenAI 用于决定 AI 模型是否安全以及在开发和发布过程中需要采取何种安全措施的内部框架)时,OpenAI 表示,如果竞争对手的 AI 实验室推出没有相应安全措施的“高风险”系统,其可能会“调整”自身的安全要求。
这一变化反映了商业 AI 开发者在竞争压力日益加剧的环境下,加速部署模型的趋势。OpenAI 曾被指责为为了更快推出产品而降低安全标准,并未能及时提供详细说明其安全测试的报告。上周,有 12 位前 OpenAI 员工在 Elon Musk 针对 OpenAI 提起的诉讼中提交了一份简报,主张如果 OpenAI 完成其计划中的公司重组,该公司可能会因此进一步削减安全措施的要求。
或许早有预料,OpenAI 声称不会轻易做出这些政策调整,并且会将其安全措施保持在“更高保护水平”。
OpenAI 在周二下午发布的一篇博客文章中写道:“如果另一家前沿 AI 开发者推出了没有相应安全措施的高风险系统,我们可能会调整我们的要求。然而,我们首先会严格确认风险形势确实发生了变化,公开承认我们正在做出调整,对该调整评估是否不会显著增加整体的严重伤害风险,并且仍将安全措施保持在更高的保护水平。”
更新后的 Preparedness Framework 同时明确表示,OpenAI 正在更大程度上依赖自动化评估来加速产品开发。公司表示,虽然并未完全放弃由人工主导的测试,但已构建出“一系列不断扩展的自动化评估工具”,据称这些工具可以“跟上更快的发布节奏”。
一些报道对此提出了异议。据《金融时报》报道,OpenAI 为即将推出的一款重大全新模型的安全检查给予测试人员不足一周的时间——相比之前的版本时间更为紧张。该刊物的消息来源还称,OpenAI 的许多安全测试现在是在公开发布版本之前的早期模型上进行的。
对于 OpenAI 是否在安全问题上做出妥协的说法,该公司在声明中进行了驳斥。
OpenAI 正悄然降低其安全承诺。 —— Steven Adler (@sjgadler) 2025 年 4 月 15 日
OpenAI Framework 的其他变更涉及到公司如何根据风险对模型进行分类,包括那些能够隐藏其能力、逃避安全措施、阻止系统关闭甚至实现自我复制的模型。OpenAI 表示,现在将重点关注模型是否达到以下两个阈值之一:“高”能力或“关键”能力。
根据 OpenAI 的定义,前者指的是能够“放大现有导致严重伤害途径”的模型;后者则指那些“引入前所未有、导致严重伤害的新途径”的模型。
OpenAI 在其博客文章中写道:“达到高能力标准的系统在部署前必须具备能够充分最小化相关严重伤害风险的安全措施;达到关键能力标准的系统在开发过程中也需要具备能够充分最小化相关风险的安全措施。”
这是 OpenAI 自 2023 年以来首次对 Preparedness Framework 进行更新。
好文章,需要你的鼓励
今年是AI智能体的爆发年。聊天机器人正演进为能代表用户执行任务的自主智能体,企业持续投资智能体平台。调研显示,超半数高管表示其组织已在使用AI智能体,88%在智能体上投入过半AI预算的公司已从至少一个用例中获得投资回报。Gartner预测,到2026年40%的企业软件应用将包含智能体AI,2035年智能体AI可能驱动约30%的企业应用软件收入。企业开始将AI智能体视为员工,建立招聘培训体系。
波士顿大学团队发现当今多模态AI存在严重"偏科"问题:面对冲突的文字、视觉、听觉信息时,AI过分依赖文字而忽视真实感官内容。研究团队构建MMA-Bench测试平台,通过创造视听冲突场景暴露了主流AI模型的脆弱性,并提出模态对齐调优方法,将模型准确率从25%提升至80%,为构建更可靠的多模态AI系统提供重要突破。
谷歌的Nano Banana Pro AI模型生成的图像逼真度令人震惊,其关键在于完美模拟了手机相机的拍照特征。这些AI生成的图像具备手机拍照的典型特点:明亮平坦的曝光、较大的景深范围、略显粗糙的细节处理,甚至包含噪点。该模型还能自动添加符合情境的细节元素,如房产照片的水印等,使图像更加真实可信。这种技术进步意味着辨别AI生成内容变得更加困难。
UC伯克利研究团队发现了一种名为"双重话语"的AI攻击方法,能够通过简单的词汇替换绕过当前所有主流聊天机器人的安全防护。攻击者只需用无害词汇替换危险词汇,就能让AI在不知不觉中提供危险信息。研究揭示了现有AI安全机制的根本缺陷,迫切需要开发新的防护策略来应对这一威胁。