OpenAI正在推出其AI图像生成器的最新版本,新增"思考能力"功能,允许其通过搜索网络内容,依据单一提示词生成多张图像。OpenAI于本周二宣布,ChatGPT图像2.0现已能够生成更为"精细复杂"的图像,在指令跟随、细节保留以及文字生成方面均有显著提升。
该功能由OpenAI全新的GPT Image 2模型驱动,新增的思考能力目前面向ChatGPT Plus、Pro、Business及Enterprise订阅用户开放。在选择思考模型后,图像生成器可联网抓取信息、根据用户上传的文件创建可视化说明,并"在生成图像之前对图像结构进行推理分析"。
在开启思考功能的状态下,ChatGPT图像2.0还支持一次性生成最多八张图像,且每张图像中的角色、物体与风格保持一致。OpenAI表示,这将大大简化漫画页面、系列社交媒体图文、以及住宅各房间设计方案等内容的生成流程。
所有ChatGPT用户均可享受本次更新带来的功能提升,包括更精准捕捉照片特征、支持像素艺术、漫画、电影截帧等多种图像风格。生成分辨率最高可达2K,支持从3:1横幅到1:3竖版在内的多种画面比例。此外,图像中的文字生成能力也得到全面升级,除英文及其他拉丁字母语言外,OpenAI表示图像2.0在日语、韩语、中文、印地语及孟加拉语的图文生成方面取得了"重大进展"。
OpenAI最初于去年推出ChatGPT图像功能,并于去年12月发布了上一个重大更新,主要改进了图像生成速度与照片编辑能力。自此之后,市场竞争持续加剧,谷歌的Nano Banana Pro与微软的MAI-Image-2等工具相继入场。
ChatGPT图像2.0即日起面向所有ChatGPT及Codex用户开放使用。
Q&A
Q1:ChatGPT图像2.0的思考功能是什么?有什么用?
A:ChatGPT图像2.0的思考功能是一项基于GPT Image 2模型的新能力,开启后图像生成器可以联网搜索相关信息、分析用户上传的文件并生成可视化说明,同时在正式生成图像之前对图像的整体结构进行推理规划,从而生成更精准、更复杂的图像内容。该功能目前仅向ChatGPT Plus、Pro、Business及Enterprise订阅用户开放。
Q2:ChatGPT图像2.0一次最多能生成多少张图像?
A:在开启思考功能的情况下,ChatGPT图像2.0支持一次性生成最多八张图像,并且每张图像中的人物角色、物体和视觉风格可保持高度一致。这一特性特别适合用于制作漫画页面、系列社交媒体配图或建筑室内设计方案等需要风格统一的多图场景。
Q3:ChatGPT图像2.0在文字生成方面有哪些改进?
A:ChatGPT图像2.0在图像内文字生成方面进行了全面升级,除了英语等拉丁字母语言外,还在日语、韩语、中文、印地语及孟加拉语的文字生成上取得了显著进步。此外,图像分辨率最高支持2K,画面比例涵盖从3:1横幅到1:3竖版等多种格式,整体实用性大幅提升。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。