作为营销人员越来越多地利用 AI 开发图像,如何有效且合法地使用 AI 成为一个关键挑战。为了更好地理解 AI 如何改变图像开发以及相关最佳实践,我采访了 Getty Images 的首席产品官 Grant Farhall。Getty Images 是一家领先的视觉内容创作和市场平台,旗下拥有 Getty Images、iStock 和 Unsplash 三个品牌。
Getty Images 背景介绍
Farhall 表示:"Getty Images 致力于视觉叙事业务。作为领先的视觉内容创作和市场平台,我们的品牌提供富有影响力的视觉内容,帮助任何品牌、企业或组织与其目标受众进行更有效的沟通,并激励受众采取行动。近 30 年来,我们一直在报道全球事件,通过我们在世界各地捕捉的图像引发重要对话,实现新闻事件的快速、准确的视觉报道。我们还拥有全球最大、最优质的私人档案库之一,收藏了数亿独特的视觉资产,可以追溯到摄影术诞生之初。"
AI 如何改变图像的开发和使用
Farhall 认为,引人注目的视觉内容对于营销人员连接品牌和受众至关重要。"生成式 AI 在某些适当的情况下为制作这些视觉内容提供了另一种选择。然而,创作过程的基本核心保持不变:具有才能的个人,配备适当的工具,最终负责将新想法变为现实。生成式 AI 是帮助他们发挥独特人类创造力的另一个工具,就像他们手中的新画笔和画布。"
AI 在图像开发中的优势
Farhall 承认 AI 具有显著优势:"生成式 AI 允许用户创建传统方式难以或无法拍摄的图像。但关键是,高质量的 AI 生成图像应该能帮助人们与受众沟通,并且必须基于经过完全授权、无侵犯知识产权风险的优质'干净'数据进行训练。客户不应该在创建高质量 AI 视觉内容和法律安全性之间做出选择,他们应该两者兼得。"
AI 图像开发面临的挑战
Farhall 指出:"我们现在生活在一个无法始终确定所遇到的照片和视频是否真实的世界中。这对品牌在寻求与客户建立和维持信任时具有重要影响,特别是当真实性是品牌身份核心时。品牌需要慎重考虑何时以及如何使用 AI,以及在使用时提供多大程度的透明度。"
CMO 使用 AI 开发图像的最佳实践
Farhall 建议起点是使用"商业安全"的 AI 工具,因为它们"可以帮助品牌根据其独特需求创作更高水平的内容,但不能替代真实的生活图像。CMO 和他们的营销团队需要根据他们试图接触的受众和想要传达的信息来决定 AI 是否是合适的工具。"
总的来说,Farhall 的建议是"对使用的 AI 工具要极其谨慎,与那些在训练数据、流程、使用权和法律保障方面完全透明的 AI 供应商合作。品牌应该能够以节省时间、金钱和风险的方式进行创作,而不应在创造力和保护之间进行权衡。"
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。