中国升数科技旗下的人工智能产品Vidu今日发布平台新功能更新,旨在通过允许用户上传多张参考图像并由AI模型将其合成为生动、高度一致的生成图片来"重新定义摄影"。
Vidu以其生成式AI视频平台和基础模型而闻名,该公司允许用户输入自然语言并添加参考图像来制作短视频场景。该模型可以使用参考图像在场景中创建元素和对象,在不同场景间保持高度一致性。
Vidu表示已为图像生成实现了类似的参考图转图技术,该技术允许对生成内容中的参考资料进行更好的控制和一致性保持,用户最多可上传七张图像。
当用户使用此更新功能时,该公司的模型使用其称为"语义理解"的技术来解释多张图像之间的关系,从而产生更高的一致性。AI模型的这种能力此前存在一定错误率,直到最近,谷歌Gemini 2.5 Flash Image(也称为"Nano Banana")等模型的突破才让人们更容易使用这项技术。
例如,用户可以使用Vidu的参考图转图功能,通过文本提示和多张独立图像从零开始生成新图像。据Vidu介绍,这允许以极高的一致性快速编辑照片。
比如,摄影师可以拍摄一张婚礼照片,然后添加花束等元素,改变桌上花朵的样式,或者在阴天或雨天时调整光线。用户可以使用该功能修改不太符合预期的自拍照,更换衬衫上的标志或将自己放置在不同的地方。营销人员和广告商将能够快速合成包含产品的AI生成"照片",或在已完成的广告拍摄中更换产品模特。
Vidu表示已显著改善其即时图像编辑能力,与现有编辑平台竞争。寻求使用AI进行生成式图像合成的用户通常需要依赖编辑平台或高级工作流构建器(如开源工具ComfyUI)来实现一致性和控制。
该公司表示,使用这项新功能可实现的编辑功能包括重新混合、部分和完全对象替换以及添加对象。用户可以使用多张输入图像并将其自由合成为单张图像,该公司称与市场上其他模型相比具有"高度一致性",包括视觉合理性。用户可以通过部分替换或对象替换来修改对象的外观,例如改变服装或雨伞的颜色,或完全用不同的对象替换。
Vidu的新模型功能与谷歌的Nano Banana和Black Forest Labs的Flux Context在生成式图像编辑和制作能力方面形成竞争。该公司表示,其模型通过提供所谓的"无与伦比的图像和角色一致性,以及自然的图像融合,带来更丰富、更逼真的细节"而脱颖而出,包括能够清晰地从参考图像中继承视觉效果和嵌入文本。现代生成式AI图像模型在准确渲染文本方面仍然困难重重,即使有参考图像也是如此。
Q&A
Q1:Vidu的参考图转图功能是什么?
A:参考图转图是Vidu推出的新功能,允许用户上传最多七张参考图像,通过AI模型的语义理解技术将多张图像合成为高度一致的生成图片,实现快速图像编辑和创作。
Q2:参考图转图功能可以用来做什么?
A:该功能可用于多种场景,包括修改婚礼照片的元素和光线、调整自拍照效果、更换服装标志、制作广告照片、替换产品模特等,支持重新混合、对象替换和添加对象等编辑操作。
Q3:Vidu与其他AI图像生成模型相比有什么优势?
A:Vidu声称其模型在图像和角色一致性方面具有优势,能够实现自然的图像融合,产生更丰富逼真的细节,并且能够清晰地从参考图像中继承视觉效果和嵌入文本,这是许多现代生成式AI模型仍在努力解决的问题。
好文章,需要你的鼓励
Kollmorgen发布NDC布局助手软件工具,专为工厂和仓库中的自动导引车(AGV)及自主移动机器人(AMR)的路线规划与优化而设计。该工具通过分段分析路线,帮助工程师在系统部署前识别瓶颈与低效环节,提供行驶时间、车速及优化潜力等关键数据,并以可视化方式标注问题区域,从而缩短布局设计与验证周期。Kollmorgen表示,该工具未来还将融入AI驱动的优化能力。
这篇由加州大学圣地亚哥分校等六所机构联合发布的综述(arXiv:2605.02913,2026年4月),首次系统梳理了大型语言模型强化学习训练中长期被忽视的轨迹设计问题,提出了GFCR四模块框架(生成、过滤、控制、回放),覆盖数学、代码、多模态和智能代理等多个应用场景,并附有实用的故障诊断手册,为AI训练工程师提供系统性的方法论指导。
现代仓储已从幕后走向前台,配送速度成为品牌竞争核心。面对次日达甚至两小时送达的市场压力,领先履约中心借鉴敏捷开发理念,以周为单位迭代代码、机器人与工作流程。IoT信标、边缘计算与视觉识别模块构建双层架构,实现厘米级货盘追踪与低延迟决策。人机协作模式让员工从重体力劳动转向异常处理与数据分析,拣选准确率突破99%。同时,自动化系统实时采集碳排放数据,在提速的同时实现可量化的减排目标。
中国科学技术大学与FrameX.AI联合提出Stream-R1框架,针对AI视频生成蒸馏训练中"一视同仁"的核心缺陷,引入奖励模型对训练样本进行双重加权:在样本层面根据质量分数筛选可靠的学习信号,在像素与帧层面通过梯度显著性热力图集中优化最需改进的区域,使4步快速学生模型在VBench多项指标上超越慢速多步教师模型,推理速度提升30倍且不增加任何额外计算开销。