在周二的直播中,OpenAI 首席执行官 Sam Altman 宣布了 ChatGPT 一年多以来首次重大的图像生成功能升级。
ChatGPT 现在可以利用公司的 GPT-4o 模型原生创建和修改图像及照片。GPT-4o 一直是这个 AI 驱动的聊天机器人平台的基础,但直到现在,该模型只能生成和编辑文本,而不能处理图像。
Altman 表示,GPT-4o 原生图像生成功能现已在 ChatGPT 和 OpenAI 的 AI 视频生成产品 Sora 上线,面向该公司每月 200 美元专业版计划的订阅用户开放。OpenAI 表示,该功能将很快向 ChatGPT 的 Plus 用户和免费用户开放,同时也会向使用公司 API 服务的开发者开放。
与其实际替代的图像生成模型 DALL-E 3 相比,具有图像输出功能的 GPT-4o 在生成过程中会"思考"更长时间,以创建 OpenAI 所描述的更准确和更详细的图像。GPT-4o 可以编辑现有图像,包括含有人物的图像——对其进行转换或"修复"前景和背景对象的细节。
据 OpenAI 向《华尔街日报》透露,为了支持新的图像功能,他们使用"公开可用的数据"以及与 Shutterstock 等公司合作获得的专有数据来训练 GPT-4o。
许多生成式 AI 供应商将训练数据视为竞争优势,因此对其相关信息严格保密。同时,训练数据细节也可能引发知识产权相关诉讼,这是公司不愿透露太多信息的另一个原因。
OpenAI 首席运营官 Brad Lightcap 在向《华尔街日报》的声明中表示:"在输出方面,我们尊重艺术家的权利,并且我们制定了相关政策,防止生成直接模仿任何在世艺术家作品的图像。"
OpenAI 提供了一个退出表单,允许创作者请求将其作品从训练数据集中移除。该公司还表示,会尊重网站禁止其网络爬虫收集训练数据(包括图像)的请求。
ChatGPT 升级后的图像生成功能紧随 Google 旗舰模型之一 Gemini 2.0 Flash 的实验性原生图像输出功能之后。这个强大的功能在社交媒体上迅速传播——但并非都是好事。Gemini 2.0 Flash 的图像组件似乎缺乏足够的安全限制,允许用户移除水印并创建包含受版权保护角色的图像。
好文章,需要你的鼓励
新加坡人工智能机构与阿里云发布全新大语言模型Qwen-Sea-Lion-v4,专门针对东南亚语言和文化特色进行优化。该模型结合阿里云Qwen3-32B基础模型和大量东南亚地区数据集,在东南亚语言模型评估榜单中位居开源模型首位。模型支持119种语言,能在32GB内存的消费级笔记本上运行,采用字节对编码技术更好处理非拉丁文字,并具备3.2万词元上下文长度,可执行文档级推理和摘要任务。
中科大联合快手等机构推出VR-Thinker技术,首次实现AI视频评判员的"边看边想"能力。该系统通过主动选择关键画面、智能记忆管理和三阶段训练,在视频质量评估准确率上达到75%-82%,特别擅长处理长视频场景,为AI视频生成的质量控制提供了突破性解决方案。
AI智能体是下一代业务自动化工具,不仅能对话交流,还能执行复杂任务。与ChatGPT聊天机器人不同,它们可在最少人工干预下规划并完成工作。文章介绍了五个高影响力应用:自动化客户服务解决方案、销售CRM管理、合规自动化、招聘筛选与排程、市场情报报告。这些应用都具有重复性工作流程、依赖结构化数据、遵循可预测规则等特点,能够释放员工宝贵时间用于更有价值的工作。
微软研究院发布BitDistill技术,通过三阶段优化将大型语言模型压缩至1.58位精度,在保持性能的同时实现10倍内存节省和2.65倍速度提升。该技术包括模型结构稳定化、持续预训练适应和知识蒸馏传承三个关键步骤,解决了模型量化中的性能衰减和规模化问题,为AI模型在资源受限设备上的高效部署提供了新方案。