OpenAI集团宣布对其旗舰GPT-5大语言模型进行首次重大升级,此前该模型在8月份发布时收到了褒贬不一的评价。
此次更新旨在让ChatGPT变得"更智能、更有趣",公司今天表示。新版本推出了两个变体:GPT-5.1 Instant和GPT-5.1 Thinking。
前者将取代GPT-5成为ChatGPT的默认模型,据称比GPT-5"更温暖、更智能、更擅长"遵循用户指令。OpenAI表示,后者是该模型的智能版本,旨在处理更复杂的查询和任务,在简单任务上"更易理解、速度更快",在处理复杂任务时"更持久"。
"我们清楚地听到用户反馈,优秀的AI不仅应该聪明,还应该有趣易谈,"公司在发布这些模型的博客文章中说道。"GPT-5.1在智能和沟通风格方面都有显著改进。"
推理能力增强
在Substack的一篇单独博客文章中,OpenAI应用首席执行官Fidji Simo表示,GPT-5和GPT-5.1之间的主要区别是新模型现在以更自然的语调对话。"它经常以其趣味性让人惊讶,同时保持清晰和实用,"她引用早期用户反馈承诺道。
GPT-5.1 Instant能够利用新发现的"自适应推理"能力来判断何时需要更仔细地思考其回应,比如当用户输入更复杂的提示时。其指令遵循技能也得到了改进,因此它将比以前更一致地直接回应用户的查询。
当OpenAI首次推出GPT-5时,公司CEO Sam Altman在社交媒体上大肆宣传其能力,但许多用户在亲自体验后感到失望。该模型因仅引入渐进式改进而受到批评,许多人对OpenAI决定将其设为ChatGPT默认模型同时移除早期模型感到不满。反弹如此激烈,以至于公司后来选择在仅一天后重新提供GPT-4作为选项。
GPT-5在性能方面也有困难,百度公司的ERNIE-4.5-VL-28B-A3B-Thinking等更新模型发布后在指令遵循等关键基准测试中排名更高。
GPT-5.1 Thinking旨在解决这个问题,OpenAI表示它获得了根据提示复杂性确定需要投入多少"推理能力"的能力。因此,它回应复杂查询的时间会比简单问题更长。然而,OpenAI表示早期测试显示,该模型在简单任务上平均花费时间更少,使用更少Token,同时还能提供更高质量的回应。
公司补充说,GPT-5.1 Thinking的回应也将包含"更少术语"和使用更少"未定义术语"。这个想法是在解释技术概念时使模型更易接近和理解。
更大定制化
新模型的另一个主要焦点是个性化。用户可以在各种不同模式之间切换,调整语调,取决于他们想要更友好的聊天体验还是更权威的声音。
虽然ChatGPT确实已经为模型语调提供了一些基本预设,但它已经扩展了这些选项。用户现在可以从"默认"、"友好"、"高效"、"愤世嫉俗"、"书呆子"、"专业"、"坦率"和"古怪"模式中选择,公司说道。此外,用户还将能够调整ChatGPT使用表情符号的频率。
Simo解释说,公司试图在GPT-5.1的智商和情商之间取得更好的平衡,但意识到每个人对语调都有自己的偏好,因此扩展了预设范围。"无论您选择默认还是这些选项之一,模型都具有相同的能力,但其回应的风格会有所不同——更正式或熟悉,更有趣或直接,更多或更少术语或俚语,"他说。
OpenAI将非常关注用户的初始反馈,因为随着人工智能竞赛的加剧,它面临着各方面的压力。该公司最近遭受了挫折,GPT-5受到的严厉批评说服微软公司考虑OpenAI最大竞争对手之一Anthropic公司的替代模型。该公司的模型现在作为选项在微软的Copilot Researcher、Copilot Studio和GitHub Copilot以及其新Office智能体中提供。
这些模型将首先向ChatGPT Pro、Plus、Go和Business订阅者提供,也将推出免费版本的聊天机器人。公司表示计划逐步推出GPT-5.1以保持性能稳定,因此并非所有用户都会立即看到它。与此同时,原始GPT-5将在接下来的几个月中继续作为ChatGPT用户的选项。
Q&A
Q1:GPT-5.1相比GPT-5有什么主要改进?
A:GPT-5.1主要在两个方面有显著改进:一是推理能力增强,具备"自适应推理"功能,能根据问题复杂度调整思考深度;二是交互体验优化,语调更自然温暖,提供8种个性化模式选择,包括友好、专业、古怪等不同风格。
Q2:GPT-5.1 Instant和GPT-5.1 Thinking有什么区别?
A:GPT-5.1 Instant是默认版本,主要提升了指令遵循能力和交流风格,语调更温暖自然。GPT-5.1 Thinking是智能版本,专门处理复杂任务,能智能分配推理资源,简单任务响应更快,复杂任务处理更持久。
Q3:普通用户如何使用GPT-5.1的个性化功能?
A:用户可以在ChatGPT中选择8种不同的语调模式:默认、友好、高效、愤世嫉俗、书呆子、专业、坦率和古怪。还可以调整表情符号使用频率。这些设置不会改变模型能力,只是调整回应的风格和语调。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。