微软在AI图像生成领域向行业领先者发起了有力冲击,并在至少一项关键指标上取得了突破。周二,微软发布了两款全新的文本转图像模型,命名为MAI-Image-2.5,这也是其新一代AI模型系列的重要组成部分。那么,这款模型与图像生成领域的行业标杆——谷歌的Nano Banana相比,表现究竟如何?
提到微软的AI产品(如Copilot),人们通常不会将其与创意类工作联系在一起。而这两款新模型——标准版2.5和更为轻快的Flash版——正是为了改变这一印象而生。
请参阅:微软Build大会:来自旧金山的Copilot AI、智能体与芯片的重大消息
"它们能够为您提供精准的图像编辑功能,在可控性和一致性上表现出色。"微软AI首席执行官穆斯塔法·苏莱曼在周二的Build大会主题演讲中表示,"Flash版适用于对效率要求极高的生产场景,而2.5版则带来最高精度和专业级别的性能表现。"
此次发布的两款模型是微软在Build开发者大会上推出的七款全新AI模型之一。此外,微软还发布了首款"推理"模型——MAI-Thinking-1(推理模型的设计理念是在给出回应之前进行更多轮次的迭代思考,以期生成更优质的结果或解决更复杂的问题)。与此同时,微软还推出了新一代语音识别与转录模型,以及一款专为GitHub优化的代码模型(GitHub同样属于微软旗下)。此次大会还让外界深入了解了微软对计算未来的整体构想——其核心毫无悬念,正是智能体AI。
新款图像模型现已在PowerPoint和企业级模型服务平台Foundry中正式上线,并正在逐步向OneDrive推出。
以下是微软最新AI图像模型与竞品之间的综合对比。
MAI-Image-2.5与Nano Banana 2,哪款更胜一筹?
在AI图像处理领域,谷歌的Nano Banana自2025年发布以来便持续主导创意AI市场,凭借业界领先的能力奠定了其标杆地位,尽管它也在一定程度上助推了大量低质图片和深度伪造内容的泛滥。正因如此,微软宣布其新图像模型在某一关键维度上超越Nano Banana,着实令业界为之侧目。
根据业内广泛使用的AI模型评测榜单Arena AI显示,微软MAI-Image-2.5在图像编辑能力上已超越Nano Banana 2。不过,微软目前仍位居第二,OpenAI的GPT-Image-2当前仍稳居榜首。
值得注意的是,AI模型的实际价值并不仅仅由单一基准测试决定,易用性同样不可忽视。有一个简单的问题可以帮助您判断哪款产品更适合自己:您日常使用的是PowerPoint还是Google Slides?能否便捷地使用微软或谷歌各自的AI模型,将在很大程度上影响您的最终选择。此外,若您计划将AI生成的图像用于商业用途,还需特别关注版权归属问题——这通常取决于您所使用的是企业版还是个人版方案。
Q&A
Q1:MAI-Image-2.5在哪些方面超越了谷歌Nano Banana?
A:根据业内知名AI模型评测榜单Arena AI的基准测试数据,微软MAI-Image-2.5在图像编辑能力上超越了谷歌Nano Banana 2,表现出更强的可控性与编辑精准度。不过,在综合排名上,微软目前仍位居第二,OpenAI的GPT-Image-2依然占据榜首位置。
Q2:MAI-Image-2.5和Flash版有什么区别?
A:MAI-Image-2.5主打最高精度和专业级性能,适合对图像质量要求较高的使用场景;而Flash版则更注重高效率,适用于对速度要求较高的大规模生产工作负载。两款模型各有侧重,用户可根据实际需求选择。
Q3:MAI-Image-2.5现在可以在哪里使用?
A:MAI-Image-2.5目前已在微软PowerPoint和企业级平台Foundry中正式上线,并正在逐步向OneDrive推出。如果您是企业用户,可以通过Foundry平台优先体验该模型的图像生成与编辑功能。
好文章,需要你的鼓励
6月3日,以“光助智算,网赋新能:共筑AI时代全光底座”为主题的2026中国光网络研讨会(OptiNet China 2026)在京盛大开幕。
阿里巴巴云计算团队提出GUI-RobustEval评测系统和RoTS数据合成方法,专门训练AI助手识别并纠正自身操作错误,使RoTS-32B在OSWorld上达到47.4%成功率的开源最优水平。
微软在Build开发者大会上发布了两款新文生图模型——MAI-Image-2.5与Flash版本,同时还推出了首个推理模型MAI-Thinking-1及多款语音、转录和代码模型,共七款新AI模型。根据Arena AI排行榜评测,MAI-Image-2.5在图像编辑能力上已超越谷歌Nano Banana 2,但仍位居OpenAI GPT-Image-2之后。新图像模型现已集成至PowerPoint、Foundry企业市场及OneDrive,主打精准编辑与专业级输出能力。
DRIFT方法通过数学等价关系,将多轮对话强化学习目标转化为带权重的监督学习,效率接近普通SFT,性能媲美在线强化学习。