OpenAI正在推出其AI图像生成器的最新版本,新增"思考能力"功能,允许其通过搜索网络内容,依据单一提示词生成多张图像。OpenAI于本周二宣布,ChatGPT图像2.0现已能够生成更为"精细复杂"的图像,在指令跟随、细节保留以及文字生成方面均有显著提升。
该功能由OpenAI全新的GPT Image 2模型驱动,新增的思考能力目前面向ChatGPT Plus、Pro、Business及Enterprise订阅用户开放。在选择思考模型后,图像生成器可联网抓取信息、根据用户上传的文件创建可视化说明,并"在生成图像之前对图像结构进行推理分析"。
在开启思考功能的状态下,ChatGPT图像2.0还支持一次性生成最多八张图像,且每张图像中的角色、物体与风格保持一致。OpenAI表示,这将大大简化漫画页面、系列社交媒体图文、以及住宅各房间设计方案等内容的生成流程。
所有ChatGPT用户均可享受本次更新带来的功能提升,包括更精准捕捉照片特征、支持像素艺术、漫画、电影截帧等多种图像风格。生成分辨率最高可达2K,支持从3:1横幅到1:3竖版在内的多种画面比例。此外,图像中的文字生成能力也得到全面升级,除英文及其他拉丁字母语言外,OpenAI表示图像2.0在日语、韩语、中文、印地语及孟加拉语的图文生成方面取得了"重大进展"。
OpenAI最初于去年推出ChatGPT图像功能,并于去年12月发布了上一个重大更新,主要改进了图像生成速度与照片编辑能力。自此之后,市场竞争持续加剧,谷歌的Nano Banana Pro与微软的MAI-Image-2等工具相继入场。
ChatGPT图像2.0即日起面向所有ChatGPT及Codex用户开放使用。
Q&A
Q1:ChatGPT图像2.0的思考功能是什么?有什么用?
A:ChatGPT图像2.0的思考功能是一项基于GPT Image 2模型的新能力,开启后图像生成器可以联网搜索相关信息、分析用户上传的文件并生成可视化说明,同时在正式生成图像之前对图像的整体结构进行推理规划,从而生成更精准、更复杂的图像内容。该功能目前仅向ChatGPT Plus、Pro、Business及Enterprise订阅用户开放。
Q2:ChatGPT图像2.0一次最多能生成多少张图像?
A:在开启思考功能的情况下,ChatGPT图像2.0支持一次性生成最多八张图像,并且每张图像中的人物角色、物体和视觉风格可保持高度一致。这一特性特别适合用于制作漫画页面、系列社交媒体配图或建筑室内设计方案等需要风格统一的多图场景。
Q3:ChatGPT图像2.0在文字生成方面有哪些改进?
A:ChatGPT图像2.0在图像内文字生成方面进行了全面升级,除了英语等拉丁字母语言外,还在日语、韩语、中文、印地语及孟加拉语的文字生成上取得了显著进步。此外,图像分辨率最高支持2K,画面比例涵盖从3:1横幅到1:3竖版等多种格式,整体实用性大幅提升。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。