12月2日,阿里巴巴发布了图片生成及编辑模型Qwen-Image的重磅更新。新模型在图像编辑中维持了更高的一致性,并在多视角转换、多图像融合、多模态推理等方面取得突破进展,可广泛用于概念创意、工业设计、日常修图等诸多场景。目前,新版本Qwen-Image已首发接入千问APP,用户可无限次免费使用。
Qwen-Image-Edit 基于20B的 Qwen-Image 模型进一步训练,相较于上个版本,新的Qwen-Image-Edit模型还进行多项关键性能增强:在图片编辑中,新模型大幅减轻了主体偏移问题,生图不模糊、更稳定;同时提升了主体一致性,使得多张图片中的人物可顺畅融合为一张合照。Qwen-Image-Edit新模型在工业设计场景着重进行了优化,轻松实现变颜色、变视角、局部修改、材质替换等常用功能;新模型的推理能力也有大幅提升,特别是在几何推理方面,可直接在几何图上生成新的辅助线等效果。
此前,Qwen-Image基础版在用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO等多个基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色。

Qwen-Image系列模型自开源发布以来,即刻成为全球AI社区最火热的开源视觉基础模型,当前总下载量已突破300万次。在全球最大的AI开源社区HuggingFace的“图生图”榜单前15中,有13个都是Qwen-Image的原生或衍生模型,网友们纷纷基于Qwen-Image魔改出各种新版本等,比如镜头控制lora效果,可实现图片的多角度重新编辑,目前仍高居HuggingFace的演示空间(Space)榜单第一。如今,开源社区的优秀创意也已吸纳到新改版的Qwen-Image-Edit模型中,基模上就可实现打光、换视角等特色效果。

Qwen-Image衍生模型霸榜开源社区
目前,Qwen-Image-Edit最新模型已经在千问App全面上线,普通用户也可免费使用这一新模型。用户只需在千问APP对话界面输入指令,即可自动调用Qwen-Image系列模型的强大能力,实现生图、修图、多图融合等操作。例如,输入“生成图1和图2的人物合照”,模型能高效、精准地生成符合语义的图像,效果直观且富有创意。

此外,结合千问App上接入的万相Wan2.5视频生成能力,用户还可实现生图、生视频的无缝串联:先生成人物图像,再一键实现“一张照片就跳舞”或“对口型唱歌”等功能,瞬间将静态画面转化为动态视频,真正实现从图像生成到创意表达的全新创作方法。
好文章,需要你的鼓励
这份由MIT NANDA项目团队完成的研究报告揭示了企业AI应用的真实现状。报告基于对52家企业的深度访谈、300多个公开AI项目的分析以及153位高管的问卷反馈,发现尽管企业在生成式AI上投入了300-400亿美元,但95%的组织没有看到任何投资回报。只有5%的企业成功跨越了"GenAI鸿沟",创造了实际价值。
这项研究开发了CaptionQA系统,通过测试AI生成的图片描述能否支持实际任务来评估其真正价值。研究发现即使最先进的AI模型在图片描述实用性方面也存在显著不足,描述质量比直接看图时下降9%-40%。研究涵盖自然、文档、电商、机器人四个领域,为AI技术的实用性评估提供了新标准。
以色列理工学院研究团队提出了一种将专家混合模型融入YOLOv9目标检测的创新方法。该方法让多个专门化的YOLOv9-T专家分工协作,通过智能路由器动态选择最适合的专家处理不同类型图像。实验显示,在COCO数据集上平均精度提升超过10%,在VisDrone数据集上提升近30%,证明了"分工合作"比单一模型更有效,为AI视觉系统提供了新思路。