OpenAI正在推出其AI图像生成器的最新版本,新增"思考能力"功能,允许其通过搜索网络内容,依据单一提示词生成多张图像。OpenAI于本周二宣布,ChatGPT图像2.0现已能够生成更为"精细复杂"的图像,在指令跟随、细节保留以及文字生成方面均有显著提升。
该功能由OpenAI全新的GPT Image 2模型驱动,新增的思考能力目前面向ChatGPT Plus、Pro、Business及Enterprise订阅用户开放。在选择思考模型后,图像生成器可联网抓取信息、根据用户上传的文件创建可视化说明,并"在生成图像之前对图像结构进行推理分析"。
在开启思考功能的状态下,ChatGPT图像2.0还支持一次性生成最多八张图像,且每张图像中的角色、物体与风格保持一致。OpenAI表示,这将大大简化漫画页面、系列社交媒体图文、以及住宅各房间设计方案等内容的生成流程。
所有ChatGPT用户均可享受本次更新带来的功能提升,包括更精准捕捉照片特征、支持像素艺术、漫画、电影截帧等多种图像风格。生成分辨率最高可达2K,支持从3:1横幅到1:3竖版在内的多种画面比例。此外,图像中的文字生成能力也得到全面升级,除英文及其他拉丁字母语言外,OpenAI表示图像2.0在日语、韩语、中文、印地语及孟加拉语的图文生成方面取得了"重大进展"。
OpenAI最初于去年推出ChatGPT图像功能,并于去年12月发布了上一个重大更新,主要改进了图像生成速度与照片编辑能力。自此之后,市场竞争持续加剧,谷歌的Nano Banana Pro与微软的MAI-Image-2等工具相继入场。
ChatGPT图像2.0即日起面向所有ChatGPT及Codex用户开放使用。
Q&A
Q1:ChatGPT图像2.0的思考功能是什么?有什么用?
A:ChatGPT图像2.0的思考功能是一项基于GPT Image 2模型的新能力,开启后图像生成器可以联网搜索相关信息、分析用户上传的文件并生成可视化说明,同时在正式生成图像之前对图像的整体结构进行推理规划,从而生成更精准、更复杂的图像内容。该功能目前仅向ChatGPT Plus、Pro、Business及Enterprise订阅用户开放。
Q2:ChatGPT图像2.0一次最多能生成多少张图像?
A:在开启思考功能的情况下,ChatGPT图像2.0支持一次性生成最多八张图像,并且每张图像中的人物角色、物体和视觉风格可保持高度一致。这一特性特别适合用于制作漫画页面、系列社交媒体配图或建筑室内设计方案等需要风格统一的多图场景。
Q3:ChatGPT图像2.0在文字生成方面有哪些改进?
A:ChatGPT图像2.0在图像内文字生成方面进行了全面升级,除了英语等拉丁字母语言外,还在日语、韩语、中文、印地语及孟加拉语的文字生成上取得了显著进步。此外,图像分辨率最高支持2K,画面比例涵盖从3:1横幅到1:3竖版等多种格式,整体实用性大幅提升。
好文章,需要你的鼓励
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。
作者对Chrome、Edge和Firefox三款主流浏览器的内置AI功能进行了实测对比。Chrome依托Gemini提供搜索摘要与提示词保存功能;Edge集成Copilot,可针对网页、PDF及多标签页进行问答;Firefox则支持多款AI聊天机器人,并提供更强的隐私保护。综合体验后,作者最终选择Edge作为AI辅助浏览的首选,但仍以Firefox作为默认浏览器。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。