新模型名为GPT-5.5 Instant,同时还将减少"无意义"表情符号的使用。
OpenAI最新推出的ChatGPT默认模型,在虚构内容方面可能将有所改善。幻觉问题一直是AI模型面临的顽固难题,但OpenAI表示,其新模型GPT-5.5 Instant在"事实准确性方面实现了全面显著提升"。
该公司称,基于"内部评估",GPT-5.5 Instant在"涉及医疗、法律和金融等高风险领域的提示词测试中,产生的幻觉内容比GPT-5.3 Instant减少了52.5%"。此外,在"用户标记为存在事实错误的高难度对话中,不准确内容减少了37.3%"。OpenAI在GPT-5.5 Instant的系统说明文档中提供了部分评估方法的相关介绍。
我们不能再对AI的幻觉问题视而不见
OpenAI还表示,GPT-5.5 Instant"在日常任务中的能力更为出色",例如分析上传的图片,以及判断何时应主动联网获取答案。GPT-5.5 Instant的回复更加"简洁、直击要点",并将避免出现"毫无意义的表情符号"。
借助GPT-5.5 Instant,ChatGPT现在能够更有效地整合来自历史对话、Gmail等渠道的上下文信息,从而为用户提供更具个性化的回复。这也是谷歌正在为Gemini大力投入的功能方向。此外,针对所有ChatGPT模型,新增的"记忆来源"功能将允许用户查看哪些上下文信息被用于生成个性化回复,并可自行删除或修正相关内容。
OpenAI将于本周二开始向"所有ChatGPT用户"推送GPT-5.5 Instant,而GPT-5.3 Instant仍将作为可选项保留三个月,之后才会正式"退役"。考虑到过去用户曾对旧版模型的下线表示遗憾,此次安排旨在给用户留出充分的过渡时间。
增强版个性化功能将优先向Plus和Pro用户在网页端开放,移动端版本"即将推出"。OpenAI已有计划,将"尽快"为免费版、Go版、商业版及企业版用户提供相同功能。记忆来源功能目前已开始向ChatGPT消费者套餐用户的网页端推送,移动端支持也将"很快跟进"。
Q&A
Q1:GPT-5.5 Instant的幻觉问题有多大改善?
A:根据OpenAI的内部评估,GPT-5.5 Instant在医疗、法律、金融等高风险领域的提示词测试中,幻觉内容比GPT-5.3 Instant减少了52.5%;在用户标记为存在事实错误的高难度对话中,不准确内容也减少了37.3%。
Q2:GPT-5.5 Instant的个性化功能是如何运作的?
A:GPT-5.5 Instant可整合历史对话、Gmail等来源的上下文信息,为用户提供更个性化的回复。新增的"记忆来源"功能还允许用户查看哪些信息被用于生成个性化内容,并可自行删除或修正,目前该功能已向消费者套餐用户的网页端推送。
Q3:GPT-5.5 Instant什么时候向所有用户开放?
A:OpenAI将于本周二开始向所有ChatGPT用户推送GPT-5.5 Instant。增强版个性化功能将优先面向Plus和Pro用户在网页端开放,免费版、Go版、商业版及企业版用户的支持计划"即将推出"。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。