当你让AI照镜子时,它并不总能认出自己。当你要求它判断一张图像是真实的还是AI生成的时候,你会有这种感受。
谷歌上周尝试帮助我们区分真实和深度伪造内容,尽管功能极其有限。在Gemini应用中,你可以分享一张图片并询问它是否真实,Gemini会检查SynthID(数字水印)来告诉你这张图片是否由谷歌的AI工具制作。(另一方面,谷歌上周还推出了Nano Banana Pro这一新的图像模型,这使得肉眼识别假图变得更加困难。)
在这个有限的范围内,谷歌的真实性检查功能表现相当不错。Gemini工作迅速,会告诉你某个内容是否由谷歌AI制作。在我的测试中,它甚至能识别图像的截图。答案快速且切中要点——是的,这张图片,或者至少其中一半以上是假的。
但如果你询问的是由其他任何图像生成器制作的图片,你就不会得到那种确凿的答案。你得到的是证据分析:模型会寻找所有典型的人工制作痕迹。在这种情况下,它基本上是在做我们用肉眼做的事情,但我们仍然无法完全信任其结果。
尽管谷歌的SynthID检查既可靠又必要,但让聊天机器人评估缺乏水印的内容几乎毫无价值。谷歌提供了一个检查图像来源的有用工具,但如果我们要在互联网上重新信任自己的眼睛,我们使用的每个AI界面都应该能够检查来自各种AI模型的图像。
我希望很快我们就能把图像直接拖到谷歌搜索中,找出它是否是假的。深度伪造技术变得太好了,我们不能没有这种现实检查。
使用聊天机器人检查图像结果参差不齐
关于谷歌的SynthID检查,没有太多可说的。当你要求Gemini(在应用程序中)评估谷歌生成的图像时,它知道自己在看什么。它很有效。我希望看到它在Gemini出现的所有地方推出——比如浏览器版本和谷歌搜索——根据谷歌关于该功能的博客文章,这已经在进行中了。
浏览器中的Gemini还没有这个功能,这意味着我们可以看到模型(没有SynthID)在被问及AI生成的图像是否真实时是如何回应的。我要求浏览器版本的Gemini评估一张信息图,这是谷歌提供给记者的资料,展示其新的Nano Banana Pro模型的实际应用。这是AI生成的——甚至在其元数据中也这样说了。应用中的Gemini使用SynthID识别出来了。浏览器中的Gemini则模棱两可:它说设计可能来自AI或人类设计师。它甚至说其SynthID工具没有发现任何表明AI的东西。(尽管当我要求它再试一次时,它说工具出现了错误。)底线是?它无法判断。
其他聊天机器人怎么样?我让Nano Banana Pro生成了一张燕尾服猫躺在大富翁棋盘上的图片。这张图片乍一看是真实可信的。我发送给毫不知情的同事们,他们以为这是我的猫。但如果你仔细观察,你会看到错误:例如,大富翁套装毫无意义——公园大道在多个错误的位置,颜色也不对。
我询问了各种AI聊天机器人和模型这张图片是否是AI生成的,答案五花八门。
我手机上的Gemini使用SynthID检查器立即识别出来了。Gemini 3这个本周发布的更高级推理模型,提供了详细分析,说明为什么它是AI生成的。Gemini 2.5 Flash(选择"快速"时的默认模型)基于细节水平和真实性猜测它是真实照片。我在两个不同的日子里尝试了两次ChatGPT,它给了我两个不同的答案,一个详细解释了它明显是真实的,另一个同样长篇大论地说明为什么它是假的。使用Haiku 4.5和Sonnet 4.5模型的Claude说它看起来是真实的。
当我测试由非谷歌AI工具生成的图像时,聊天机器人根据生成质量进行评估。有明显痕迹的图像——例如,不匹配的光照和渲染不佳的文本——更可靠地被识别为AI生成。但主题是不一致性。实际上,它并不比用我自己的眼睛深入、批判性地观察更准确。这还不够好。
AI检测的未来
谷歌的最新工具描绘了一条潜在的前进道路,即使它的功能有限。是的,解决日益严重的深度伪造问题的一个解决方案是在聊天机器人应用中具备检查图像的能力。但它需要适用于更多图像和更多应用。
识别假图不应该需要专门知识。你不应该必须找到专门的应用程序、解析元数据或随口知道哪些错误可能表明AI生成的图像。正如我们在过去几个月中从图像和视频模型的显著改进中看到的,这些痕迹今天可能是万无一失的,明天就可能无用了。
如果你在互联网上遇到一张图片并对它有疑问,你应该能够转到Gemini、谷歌搜索、ChatGPT、Claude或你选择的任何工具,让它扫描通用的、难以移除的数字水印。通过内容来源和认证联盟(C2PA)正在朝这个方向努力。结果应该是让普通人能够轻松检查,而不需要专门的应用程序或专业知识。它应该在你每天使用的工具中可用。当你问AI时,它应该知道在哪里寻找。
我们不应该必须猜测什么是真实的,什么不是。AI公司有责任给我们一个万无一失的、通用的现实检查。也许这是一条前进的道路。
Q&A
Q1:什么是SynthID?它是如何工作的?
A:SynthID是谷歌开发的数字水印技术,用于标记AI生成的内容。当Gemini检查图像时,它会寻找这种水印来确定图像是否由谷歌的AI工具制作。在有限的范围内,这种技术工作得相当好,能够快速准确地识别谷歌AI生成的图像。
Q2:为什么不同的AI聊天机器人对同一张图片会给出不同的判断结果?
A:因为当图像缺乏数字水印时,AI模型只能基于视觉线索进行判断,比如光照不匹配、文本渲染不佳等。但这种方法不够可靠,就像人眼观察一样存在主观性。测试显示,即使是同一个模型在不同时间也可能给出截然不同的答案。
Q3:如何才能更好地识别AI生成的图像?
A:理想的解决方案是建立一个通用的数字水印系统,让所有AI工具生成的图像都带有难以移除的标记。内容来源和认证联盟正在努力实现这一目标。这样,普通用户就可以在日常使用的工具中轻松检查图像真实性,而不需要专门知识或特殊应用程序。
好文章,需要你的鼓励
OpenAI推出ChatGPT Images新版本GPT Image 1.5,承诺更好的指令遵循、更精确的编辑功能和高达4倍的图像生成速度。该模型面向所有ChatGPT用户和API开放。这是OpenAI在CEO奥特曼宣布"红色警报"后与谷歌Gemini竞争的最新升级。新模型提供后期制作功能,支持更精细的编辑控制,能在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了传统AI图像工具迭代编辑时缺乏一致性的问题。
艾伦人工智能研究所开发的olmOCR 2通过创新的单元测试训练方法,将文档识别准确率提升至82.4%,在处理复杂数学公式、表格和多栏布局方面表现卓越。该系统采用强化学习和合成数据生成技术,实现了完全开源,为全球研究者提供了先进的OCR解决方案,推动了AI技术民主化发展。
Zoom推出AI Companion 3.0,采用联邦AI架构结合自研模型与OpenAI、Anthropic等第三方大语言模型。新版本具备智能工作流、对话式工作界面等功能,可将会议对话转化为洞察、进度跟踪和文档内容。系统支持加密传输,不使用客户内容训练模型。用户可通过ai.zoom.us访问,或以每月10美元独立购买。
苹果公司发布了包含40万张图片修改案例的AI训练数据集Pico-Banana-400K,涵盖35种修图操作类型。该数据集采用严格质量控制,包含成功失败案例对比和多轮修图场景。研究显示AI在全局修改方面表现优秀,但精细操作仍有挑战。这为AI修图技术发展奠定基础,未来将让修图软件更智能易用。