12月2日,阿里巴巴发布了图片生成及编辑模型Qwen-Image的重磅更新。新模型在图像编辑中维持了更高的一致性,并在多视角转换、多图像融合、多模态推理等方面取得突破进展,可广泛用于概念创意、工业设计、日常修图等诸多场景。目前,新版本Qwen-Image已首发接入千问APP,用户可无限次免费使用。
Qwen-Image-Edit 基于20B的 Qwen-Image 模型进一步训练,相较于上个版本,新的Qwen-Image-Edit模型还进行多项关键性能增强:在图片编辑中,新模型大幅减轻了主体偏移问题,生图不模糊、更稳定;同时提升了主体一致性,使得多张图片中的人物可顺畅融合为一张合照。Qwen-Image-Edit新模型在工业设计场景着重进行了优化,轻松实现变颜色、变视角、局部修改、材质替换等常用功能;新模型的推理能力也有大幅提升,特别是在几何推理方面,可直接在几何图上生成新的辅助线等效果。
此前,Qwen-Image基础版在用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO等多个基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色。

Qwen-Image系列模型自开源发布以来,即刻成为全球AI社区最火热的开源视觉基础模型,当前总下载量已突破300万次。在全球最大的AI开源社区HuggingFace的“图生图”榜单前15中,有13个都是Qwen-Image的原生或衍生模型,网友们纷纷基于Qwen-Image魔改出各种新版本等,比如镜头控制lora效果,可实现图片的多角度重新编辑,目前仍高居HuggingFace的演示空间(Space)榜单第一。如今,开源社区的优秀创意也已吸纳到新改版的Qwen-Image-Edit模型中,基模上就可实现打光、换视角等特色效果。

Qwen-Image衍生模型霸榜开源社区
目前,Qwen-Image-Edit最新模型已经在千问App全面上线,普通用户也可免费使用这一新模型。用户只需在千问APP对话界面输入指令,即可自动调用Qwen-Image系列模型的强大能力,实现生图、修图、多图融合等操作。例如,输入“生成图1和图2的人物合照”,模型能高效、精准地生成符合语义的图像,效果直观且富有创意。

此外,结合千问App上接入的万相Wan2.5视频生成能力,用户还可实现生图、生视频的无缝串联:先生成人物图像,再一键实现“一张照片就跳舞”或“对口型唱歌”等功能,瞬间将静态画面转化为动态视频,真正实现从图像生成到创意表达的全新创作方法。
好文章,需要你的鼓励
美国多州和部分国家要求特定应用进行年龄验证,澳大利亚已禁止16岁以下用户使用社交媒体。新提案《应用商店问责法案》建议由苹果和谷歌负责统一验证用户年龄,而非各开发者单独验证。这将提升用户体验,用户只需向苹果或谷歌验证一次身份。凭借苹果在隐私保护方面的优势,该方案可扩展至Safari浏览器,为需要年龄验证的网站提供确认信息,而无需透露用户个人数据。
Meta AI首次发布多模态奖励评估基准MMRB2,专门评价AI同时处理文字和图像的能力。该基准包含四大任务类型共4000个专家标注样本,测试23个先进模型。结果显示最佳模型Gemini 3 Pro达75-80%准确率,仍低于人类90%水平。研究揭示AI评价存在视觉偏见等问题,为多模态AI发展提供重要参考标准。
AI编程助手Cursor背后的公司Anysphere宣布收购AI代码审查工具初创公司Graphite。据报道收购价远超Graphite今年早些时候B轮融资时2.9亿美元的估值。此次收购具有战略意义,将AI代码生成与AI代码审查工具相结合,可大幅提升从编写到交付的整体效率。Anysphere估值已达290亿美元,近期频繁收购,上月收购技术招聘公司,今年7月还收购AI客户关系管理初创公司Koala的团队。
快手推出的Kling-Omni是首个真正统一的AI视频制作系统,能够理解文字、图像、视频等多种输入方式,不仅可以生成视频,还能进行复杂编辑和推理。该系统通过三个核心模块的协作,实现了从创意理解到最终输出的全流程自动化,让普通用户也能制作专业水准的视频内容,代表了AI视频技术的重要突破。