新模型名为GPT-5.5 Instant,同时还将减少"无意义"表情符号的使用。
OpenAI最新推出的ChatGPT默认模型,在虚构内容方面可能将有所改善。幻觉问题一直是AI模型面临的顽固难题,但OpenAI表示,其新模型GPT-5.5 Instant在"事实准确性方面实现了全面显著提升"。
该公司称,基于"内部评估",GPT-5.5 Instant在"涉及医疗、法律和金融等高风险领域的提示词测试中,产生的幻觉内容比GPT-5.3 Instant减少了52.5%"。此外,在"用户标记为存在事实错误的高难度对话中,不准确内容减少了37.3%"。OpenAI在GPT-5.5 Instant的系统说明文档中提供了部分评估方法的相关介绍。
我们不能再对AI的幻觉问题视而不见
OpenAI还表示,GPT-5.5 Instant"在日常任务中的能力更为出色",例如分析上传的图片,以及判断何时应主动联网获取答案。GPT-5.5 Instant的回复更加"简洁、直击要点",并将避免出现"毫无意义的表情符号"。
借助GPT-5.5 Instant,ChatGPT现在能够更有效地整合来自历史对话、Gmail等渠道的上下文信息,从而为用户提供更具个性化的回复。这也是谷歌正在为Gemini大力投入的功能方向。此外,针对所有ChatGPT模型,新增的"记忆来源"功能将允许用户查看哪些上下文信息被用于生成个性化回复,并可自行删除或修正相关内容。
OpenAI将于本周二开始向"所有ChatGPT用户"推送GPT-5.5 Instant,而GPT-5.3 Instant仍将作为可选项保留三个月,之后才会正式"退役"。考虑到过去用户曾对旧版模型的下线表示遗憾,此次安排旨在给用户留出充分的过渡时间。
增强版个性化功能将优先向Plus和Pro用户在网页端开放,移动端版本"即将推出"。OpenAI已有计划,将"尽快"为免费版、Go版、商业版及企业版用户提供相同功能。记忆来源功能目前已开始向ChatGPT消费者套餐用户的网页端推送,移动端支持也将"很快跟进"。
Q&A
Q1:GPT-5.5 Instant的幻觉问题有多大改善?
A:根据OpenAI的内部评估,GPT-5.5 Instant在医疗、法律、金融等高风险领域的提示词测试中,幻觉内容比GPT-5.3 Instant减少了52.5%;在用户标记为存在事实错误的高难度对话中,不准确内容也减少了37.3%。
Q2:GPT-5.5 Instant的个性化功能是如何运作的?
A:GPT-5.5 Instant可整合历史对话、Gmail等来源的上下文信息,为用户提供更个性化的回复。新增的"记忆来源"功能还允许用户查看哪些信息被用于生成个性化内容,并可自行删除或修正,目前该功能已向消费者套餐用户的网页端推送。
Q3:GPT-5.5 Instant什么时候向所有用户开放?
A:OpenAI将于本周二开始向所有ChatGPT用户推送GPT-5.5 Instant。增强版个性化功能将优先面向Plus和Pro用户在网页端开放,免费版、Go版、商业版及企业版用户的支持计划"即将推出"。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。