围绕AI与艺术的讨论通常在两个极端之间摇摆:要么是大量AI垃圾内容的涌现,要么是创意工作的完全自动化。更理想的方法可能是让AI成为一个有用的协作伙伴。
但到目前为止,使用文本到图像工具的视觉艺术家在指导AI方面面临着令人沮丧的基本障碍。让AI创建一个房子的图像?不太困难。但要指导它制作一个红色的房子,前面有四扇窗户,一个烟囱,左侧覆盖着常春藤?祝你好运。
斯坦福大学的计算机科学、认知心理学和教育学者们相信,他们可以通过教会模型和人类相互交流想法来帮助AI更好地增强人类创造力。在斯坦福人工智能研究所霍夫曼-叶研究资助的支持下,这些学者正在开发一个共同的概念基础,让人类能够与生成式AI在从插图到图表再到动画等生产级视觉内容上进行协作。
"虽然这些模型看起来很棒,但它们是糟糕的协作者,"斯坦福计算机科学教授兼该项目联合首席研究员Maneesh Agrawala说。"创作者无法知道在给定特定文本提示时AI会产生什么。如果你要求一个郊区独栋住宅,它生成的是现代复式住宅。"
Agrawala解释说,创作原创内容需要有观点并不断做出选择。人类和AI需要一套共同的概念,这样细微差别就不会在翻译中丢失。
双向解决方案
斯坦福团队正在从两个方向解决这个问题。首先,学者们正在进行实验,以更好地理解人们如何协作创作视觉内容。他们对执行创意任务的人进行了几项研究,通过聊天记录和草图分析参与者在协作过程中的沟通方式。
"如果我们想要构建能够理解人类在创意项目中思考方式的AI系统,我们应该从学习人们如何与彼此建立共同概念基础的方式开始,"斯坦福心理学助理教授Judith Fan说。"并不是每个人都以相同的方式说话或绘画,但他们仍然期望被理解。"
构建开源工具
其次,团队正在构建开源AI工具来应用从人类创意沟通中学到的经验。例如,ControlNet通过两个独立的功能——阻塞和细节——教授文本到图像扩散模型关于空间构图,镜像艺术家从粗略草图开始然后完成绘画细节的方式。今天的模型难以捕捉姿势的概念或对象应该如何在场景中排列。使用这个工具,创作者可以引导模型到符合他们愿景的布局。
另一个名为FramePack的工具使创作者能够从文本提示生成3D视频,用于多场景故事叙述。这个工具教会模型根据场景对整体故事的重要性来优先排序,类似于人类处理项目的方式。
第三个创新探索了神经符号AI的力量,它将神经网络与推理能力相结合,以增加透明度并克服"黑盒"AI的局限性。使用这些原理,团队开发了一种视觉场景编码语言,从自然语言文本提示开始产生代码行,这些代码被执行和渲染以创建3D场景。人类创作者可以保持在循环中检查或编辑代码,并随时提示AI更新其程序。
广泛应用前景
Agrawala说,人类和AI之间共同概念基础的影响承诺在设计、模拟、动画、机器人技术和教育等不同领域产生新的应用。研究团队目前正在与游戏平台Roblox合作,使玩家能够从文本提示生成独特的3D对象,同时施加游戏限制(例如,玩家将无法在非暴力游戏中创建武器)。
更广泛地说,学者们希望有一天所有技能水平的人类创作者——从爱好者和小企业主到视觉专家——都能有一种无摩擦的方式,使用自然语言、示例内容、代码片段和其他方式的组合来表达他们的想法。
"我们认真致力于为更广泛的创意社区提供与AI有效沟通所需的工具,"Fan说。
想了解更多?观看这个研究团队在最近的斯坦福人工智能研究所霍夫曼叶研讨会上讨论最新发现的内容。
Q&A
Q1:ControlNet是什么?它如何帮助艺术家?
A:ControlNet是一个教授文本到图像扩散模型关于空间构图的工具。它使用阻塞和细节两个独立功能,镜像艺术家从粗略草图开始然后完成绘画细节的工作方式。今天的模型难以捕捉姿势概念或对象在场景中的排列方式,而ControlNet能够让创作者引导模型到符合他们愿景的布局。
Q2:为什么AI在创意协作方面表现不佳?
A:AI模型虽然看起来很棒,但它们是糟糕的协作者。创作者无法知道在给定特定文本提示时AI会产生什么结果。比如当你要求一个郊区独栋住宅时,它可能生成现代复式住宅。创作原创内容需要有观点并不断做出选择,而人类和AI缺乏共同的概念基础,导致细微差别在沟通中丢失。
Q3:斯坦福团队如何解决AI创意协作问题?
A:团队从两个方向解决问题:首先通过实验研究人们如何协作创作视觉内容,分析参与者在创意任务中的沟通方式;其次构建开源AI工具应用学到的经验,如ControlNet、FramePack和神经符号AI工具等。目标是建立人类与AI之间的共同概念基础,让所有技能水平的创作者都能无摩擦地表达想法。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。