今日,OpenAI宣布在其图像生态系统中全面引入内容溯源信号机制,简而言之,就是为AI生成的图像打上专属标记。
这一方向并非全新尝试。自2024年起,OpenAI及其他AI工具便已开始在AI生成图像中嵌入元数据。然而,彼时的元数据标记方式相对简单,极易被规避。此次的真正突破在于,OpenAI借助多项前沿技术,大幅提升了图像身份识别的安全性。
要理解这一技术的深层逻辑,不妨先将时间拨回公元前440年。
隐写术的前世今生
隐写术是一种将加密信息隐藏于公开载体中的技术手段,其核心在于让信息的存在本身不易被察觉。换句话说,一旦有人知道某处藏有密码,破解就已成功了一半。
据现代研究记载,公元前5世纪,古希腊历史学家哈利卡纳苏斯的希罗多德在其著作《历史》中记述了这样一个故事:"约公元前440年,希斯提亚斯剃光了他最信任的助手的头发,在其头皮上刺上密信,待头发重新长出后,密信便隐于无形。此举的目的是煽动一场反抗波斯人的起义。"据记载,这一技术甚至在二战期间仍有使用。
如果你看过电视侦探剧,剧中常有人从一封普通信件中每隔几个字母读出一条隐藏信息,这便是文字版隐写术的典型案例。这种加密方式虽然强度较低,但若无人知晓信中有玄机,自然也不会去尝试破解。
在数字图像领域,隐写术已被应用多年,可将文字信息嵌入构成图片的数百万像素之中。这使得创作者能够以极难被破除的方式,将所有权与来源信息植入图像之中。
这一技术正是此次OpenAI重大公告的核心所在。
从元数据到可信标准
自2024年起,OpenAI便已在DALL-E 3、ImageGen及Sora生成的图像中嵌入元数据。用户可借助Content Credentials等工具查看这些信息。谷歌的Nano Banana及其他图像生成AI工具同样在生成图像中嵌入了一定的元数据。
以ChatGPT和Nano Banana生成的图像为例:左侧为ChatGPT生成图,右侧为Nano Banana生成图,两者的元数据均可通过Content Credentials工具正常读取。
然而,当对这些图像进行截图操作后——截图仅捕获像素,不包含底层元数据——Content Credentials工具只会报错提示"出现错误"。截图操作会彻底抹去原始图像文件所携带的元数据信息。
这正是OpenAI和谷歌努力寻求解决的核心问题之一。
对此,OpenAI表示:"我们为此已努力了相当长的时间。我们已在Sora中使用可见水印,在Voice Engine中加入音频水印,并在部署过程中持续对准确性和可靠性进行测试与研究。"
OpenAI还宣布:"我们近期正式成为C2PA合规生成产品。通过取得C2PA合规认证,我们为各平台提供了一种可信的方式,以读取、保留并传递我们附加在内容上的溯源信息。"
C2PA,即内容溯源与真实性联盟,下设C2PA合规计划,旨在"为产品符合Content Credentials规范提供保证,并通过一系列安全要求,确保产品能够正确生成和验证C2PA数据"。
通俗而言,这意味着内容元数据已实现标准化、安全化,且信息量足以发挥实际价值。OpenAI已将此机制应用于旗下所有图像产品。其公关代表告知:"ChatGPT和OpenAI生成的所有图像(包括通过OpenAI API和Codex生成的图像)均包含这些溯源信号。"
引入SynthID:水印技术的重大升级
"信号",注意这里是复数形式,这正引出了此次公告的重磅核心。
谷歌DeepMind的SynthID是一种多模态数字水印机制,能够在文本、图像、视频和音频中嵌入不可见的数字水印,技术相当精妙。值得注意的是,尽管谷歌与OpenAI在商业上是直接竞争对手,OpenAI如今也已将SynthID技术整合至其生成的所有图像中。
对于图像而言,SynthID基于像素层面运作。在图像生成的瞬间,一种类似隐写术的微妙信号便被嵌入其中。这一身份数据对人眼完全不可见,但检测工具可轻松读取。即便经过裁剪、压缩、调色等后期处理乃至截图操作,这一数字水印依然完整保留。更为关键的是,数字签名被均匀分布于整幅图像之中,而非仅集中在某一局部区域。
因此,Nano Banana在其生成图像角落添加的小小菱形标志之外,同样在整幅图像中嵌入了更为全面、完整的溯源信号。
SynthID还有一项极为强大的功能,此次OpenAI并未在公告中特别提及:SynthID能够对文本进行水印处理,且显然不会影响文本质量。其原理是极为微妙地在每段文本中选择特定的Token,使生成内容中蕴含一种可被检测软件识别的统计特征。这一功能目前尚未被OpenAI正式宣布用于ChatGPT,但已在Gemini中投入使用。
与C2PA合规措施相同,OpenAI已在通过ChatGPT、Codex及OpenAI API生成的图像中全面嵌入SynthID。
公共验证工具正式上线
与C2PA合规及SynthID功能同步发布的,还有一款面向公众开放的验证工具,用户可通过该工具检测某张图像是否由OpenAI旗下AI工具生成。
该工具的访问地址为:https://openai.com/research/verify/
目前仍有诸多值得深入探索的问题:这款工具的边界在哪里?它与SynthID联动效果如何?例如,若从ChatGPT生成的图像中截取部分内容,与真实照片合成Photoshop作品,工具能否识别出其中AI生成的比例?这些问题有待后续真实测试来验证。
对于此次系列举措,OpenAI总结道:"没有任何单一的溯源技术能够单独奏效。我们认为,一套强有力的方案应将共享标准、持久水印信号与公共验证机制有机结合。通过持续支持Content Credentials、取得C2PA合规认证、采用SynthID,并预告公共验证工具的上线,我们希望从长远来看,为构建一个更具互操作性的溯源生态系统贡献力量。"
Q&A
Q1:OpenAI的SynthID图像水印技术有什么特别之处?
A:SynthID是谷歌DeepMind开发的多模态数字水印机制,其特别之处在于水印嵌入方式基于像素层面,在图像生成瞬间即将信号均匀分布于整幅图像中,人眼无法察觉但检测工具可读取。即便图像经过裁剪、压缩、调色甚至截图处理,水印依然保留,不会因常规后期处理而消失。OpenAI目前已将SynthID整合至ChatGPT、Codex及OpenAI API生成的所有图像中。
Q2:C2PA合规认证对普通用户有什么实际意义?
A:C2PA是内容溯源与真实性联盟制定的行业标准,取得该认证意味着图像中嵌入的元数据具备标准化、安全化的特点,且信息量足够丰富。对普通用户而言,这意味着通过Content Credentials等工具查看图像来源时,能获得更可靠、更完整的信息,从而更容易判断一张图是否为AI生成,有助于识别AI合成内容与真实图像。
Q3:OpenAI的公共图像验证工具怎么用?能检测什么?
A:OpenAI推出的公共验证工具地址为https://openai.com/research/verify/,用户可通过该工具检测某张图像是否由OpenAI旗下AI工具(包括ChatGPT、Codex、OpenAI API等)生成。目前该工具的具体能力边界尚待进一步测试,例如对于将AI图像局部与真实照片合成的作品,能否准确识别其中的AI成分,仍有待验证。
好文章,需要你的鼓励
NanoCo宣布完成1200万美元种子轮融资,由Valley Capital Partners领投,Vercel、Monday.com等多家机构参与。其产品NanoClaw是一款本地部署的安全轻量级AI智能体,可学习员工工作习惯并自动化处理日常任务,效率提升可达2至3倍。该产品通过Docker容器隔离会话、凭证网关注入等机制确保企业数据安全,自今年2月上线以来已获近2.9万GitHub星标,并被亚马逊、谷歌、Meta等科技巨头高管采用。
MEMLENS是首个同时评测视觉语言模型与记忆智能体在多模态多会话长对话中的记忆能力的基准,包含789道需图文结合才能作答的问题,揭示两类系统存在互补缺陷。
Juicebox正式推出Juicebox Agents招聘智能体套件,可跨多个职位同步主动识别并联系候选人,自动推荐人选、起草外联消息。该产品整合GitHub、Stack Overflow等逾30个公开数据源,构建更丰富的候选人画像。早期用户显示招聘效率提升5倍、寻源时间缩短50%。平台每月进行独立第三方偏见审计,每个"智能体槽位"定价200美元/月。
这项研究针对视觉-语言-动作模型在动态场景下的"动态盲区"问题,提出无需重训练的推理时修正方法PPC,通过节奏压缩和路径偏移两个正交通道补偿目标运动,成功率最高提升28.8%。