在周二的直播中,OpenAI 首席执行官 Sam Altman 宣布了 ChatGPT 一年多以来首次重大的图像生成功能升级。
ChatGPT 现在可以利用公司的 GPT-4o 模型原生创建和修改图像及照片。GPT-4o 一直是这个 AI 驱动的聊天机器人平台的基础,但直到现在,该模型只能生成和编辑文本,而不能处理图像。
Altman 表示,GPT-4o 原生图像生成功能现已在 ChatGPT 和 OpenAI 的 AI 视频生成产品 Sora 上线,面向该公司每月 200 美元专业版计划的订阅用户开放。OpenAI 表示,该功能将很快向 ChatGPT 的 Plus 用户和免费用户开放,同时也会向使用公司 API 服务的开发者开放。
与其实际替代的图像生成模型 DALL-E 3 相比,具有图像输出功能的 GPT-4o 在生成过程中会"思考"更长时间,以创建 OpenAI 所描述的更准确和更详细的图像。GPT-4o 可以编辑现有图像,包括含有人物的图像——对其进行转换或"修复"前景和背景对象的细节。
据 OpenAI 向《华尔街日报》透露,为了支持新的图像功能,他们使用"公开可用的数据"以及与 Shutterstock 等公司合作获得的专有数据来训练 GPT-4o。
许多生成式 AI 供应商将训练数据视为竞争优势,因此对其相关信息严格保密。同时,训练数据细节也可能引发知识产权相关诉讼,这是公司不愿透露太多信息的另一个原因。
OpenAI 首席运营官 Brad Lightcap 在向《华尔街日报》的声明中表示:"在输出方面,我们尊重艺术家的权利,并且我们制定了相关政策,防止生成直接模仿任何在世艺术家作品的图像。"
OpenAI 提供了一个退出表单,允许创作者请求将其作品从训练数据集中移除。该公司还表示,会尊重网站禁止其网络爬虫收集训练数据(包括图像)的请求。
ChatGPT 升级后的图像生成功能紧随 Google 旗舰模型之一 Gemini 2.0 Flash 的实验性原生图像输出功能之后。这个强大的功能在社交媒体上迅速传播——但并非都是好事。Gemini 2.0 Flash 的图像组件似乎缺乏足够的安全限制,允许用户移除水印并创建包含受版权保护角色的图像。
好文章,需要你的鼓励
在2026年CES展会上,一款名为Sweekar的AI电子宠物亮相,被誉为90年代经典Tamagotchi的完美继承者。这款智能宠物从蛋形开始,随着成长会物理性变大,经历婴儿期、青少年期到成年期的完整生命周期。每个阶段都有不同的护理需求和互动方式,从基础语言学习到形成独特个性。与原版相比,Sweekar融入了先进AI技术,提供更丰富的长期体验。该产品将通过Kickstarter众筹,售价150美元。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
西班牙CTIC RuralTech创新中心运用AI等前沿技术解决农业面临的气候变化等重大挑战。通过气候模拟系统和土地使用智能分析,农户可以监测作物、预测不同种植条件下的结果,如同拥有时光机器。草莓生产商利用模拟器预测疾病影响和气候变化效应,奶酪制造商则用AI分析牛奶数据,确定最适合生产特定奶酪的原料。这些技术应用大幅提高了农业可持续性和效率。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。