近期 OpenAI 发布的 GPT-4o(一个能够无缝处理和生成文本、图像和音频的多模态 AI 模型)标志着人工智能又一重大突破。这项技术提升了创建高度逼真数字内容的能力,这使我们必须重新审视传统上依赖视觉和听觉证据作为可靠性指标的做法。
虽然我们可能会对用吉卜力工作室风格重现婚纱照感到兴奋,但这里有个重要警示。该模型能够跨多种媒介和模态合成越来越真实的内容,这对数字领域信息的完整性构成了重大挑战。老话说"眼见为实"需要认真重新思考。
我们的思维尚未准备好应对 AI 的精密性
让我们面对现实:在 GPT-4o 问世之前,人类识别 AI 生成内容的准确性就已经很有限。(2023 年的一项研究显示,人们将 AI 生成的图像误判为真实的比例达 38.7%。2024 年,MIT 的研究参与者只能以约 60% 的准确率正确识别 AI 生成的图像,这表明区分真实和合成图像的准确率与抛硬币差不多。) 即使在复杂的 AI 内容出现之前,我们就容易被虚假信息误导。
AI 能力的最新发展阶段凸显了我们需要关注虚假信息的爆炸性增长,以及对数字媒体和彼此之间信任的侵蚀。
现实世界的影响:AI 与欺骗的潜力
设想这样一个场景:你接到一个同事的视频电话,请求获取敏感信息。在你不知情的情况下,AI 技术被用来制作深度伪造视频,合成了你同事的形象和声音。由于信任视觉和听觉线索,你照做了,无意中泄露了机密数据。
最近的高调案例包括澳大利亚著名媒体人 Eddie McGuire 的事件。2024 年,诈骗者利用 AI 制作了一段深度伪造视频,视频中 McGuire 似乎在为一个诈骗性金融项目背书。这段被篡改的影像如此逼真,以至于毫无防备的观众相信了 McGuire 的背书是真实的,导致重大经济损失。同样,在 2024 年新罕布什尔州民主党总统初选期间,超过 20,000 名选民收到了使用 AI 生成的拜登总统声音的自动电话。这个深度伪造内容敦促选民放弃投票,违反了州选举法,突显了 AI 干扰民主进程的潜力。
除了视觉领域,AI 生成的文本越来越多地被用于传播虚假信息,这一点从 OpenAI 自己关于欺骗性文本生成的研究中得到证实。
心理因素:理解人类的脆弱性
根深蒂固的认知偏见影响着我们对这类欺骗的易感性。例如,虚幻真实效应表明,重复接触虚假信息会增加其可信度。AI 生成大量内容的能力会加剧这种效应,创造一个虚假信息容易传播和强化的环境。此外,内省错觉(即过高估计自己发现操纵的能力的倾向)会导致在评估潜在欺骗性内容时产生虚假的安全感。(你在阅读上面假冒来电者的例子时,是否认为这永远不会发生在你身上?)
此外,人类倾向于不加验证就信任视觉和听觉线索,这种通过进化过程形成的特性可能被 AI 生成的媒体系统性地利用。但我们有办法保护自己。
AI 环境中的 4 个策略
为了有效应对快速发展的形势,需要采取主动和多方面的方法,可概括为 4 个 A:
承认 (Acknowledge)
接受你和其他人一样都有被欺骗和误导的风险。因此,重要的是要保持对 AI 技术能力和潜在应用的了解,包括当前检测方法的局限性和漏洞。
培养对任何数字内容可能被 AI 操纵或生成的高度警觉性。
评估 (Assess)
采用坦诚的信息评估方法,关注来源和背景,从多个可靠来源寻求证实。实施严格的事实核查程序和交叉引用信息,同时意识到自己的偏见倾向。
养成质疑数字内容真实性并审查其来源可信度的习惯。
验证 (Authenticate)
系统地使用可用的验证工具和技术,如反向图像搜索、元数据分析和内容来源工具,以评估数字内容的真实性。内容来源和真实性联盟 (C2PA) 等组织开发的工具变得越来越重要。
在你的组织中支持开发可以检测 AI 生成内容的技术,包括水印和其他内容认证方法。
行动 (Act)
促进并参与提升数字素养和批判性思维技能的教育项目,强调媒体素养和分辨可靠信息能力的重要性。
做一个明智而有责任心的消费者。参与关于 AI 生成内容的伦理和法律影响的讨论,支持制定适当的政策来解决深度伪造监管、内容来源和数字水印等问题。
我们站在一个信任fabric正在重塑的关键时刻。尽管有 GPT-4o 和未来的发展,培养一个更具韧性和见识的社会是可能的。这项努力需要我们每个人的参与。保护我们的思维免受混合欺骗是维护我们共同现实完整性的一种方式。
好文章,需要你的鼓励
Jabra 推出 PanaCast 40 VBS:首款专为小会议室设计的 180° Android 智能音视频一体机
这是一项关于计算机视觉技术突破的研究,由多家知名院校联合完成。研究团队开发了LINO-UniPS系统,能让计算机像人眼一样从不同光照下的照片中准确识别物体真实的表面细节,解决了传统方法只能在特定光照条件下工作的局限性,为虚拟现实、文物保护、工业检测等领域带来重要应用前景。
字节跳动智能创作实验室发布革命性AI视频数据集Phantom-Data,解决视频生成中的"复制粘贴"问题。该数据集包含100万个跨场景身份一致配对,通过三阶段构建流程实现主体检测、多元化检索和身份验证,显著提升文本遵循能力和视频质量。
这篇文章介绍了北京人工智能研究院开发的OmniGen2模型,一个能够同时处理文字转图像、图像编辑和情境生成的全能AI系统。该模型采用双轨制架构,分别处理文本和图像任务,并具备独特的自我反思机制,能够自动检查和改进生成结果。研究团队还开发了专门的数据构建流程和OmniContext评测基准,展现了开源模型的强大潜力。