OpenAI于周三发布了GPT-5.1,这是一个更加"温暖"、更具对话性的AI模型更新,在涉及性、暴力和心理健康等敏感话题时,该模型稍显更愿意表达一些可能引发情感依赖的直率观点。
这家创业公司的最新模型包含两个版本:GPT-5.1 Instant和GPT-5.1 Thinking。根据OpenAI的介绍,GPT-5.1 Instant"现在更加温暖、更加智能,并且更善于遵循用户的指令",而GPT-5.1 Thinking则是"我们的高级推理模型,现在更易理解,在简单任务上更快,在复杂任务上更具持久性"。
GPT-5.1仅向付费用户提供;免费用户将继续使用8月发布的GPT-5版本和上月更新的版本。
AI的唯一温暖来自数据中心硬件散发的热量
该公司在公告中表示:"我们清楚地听到用户反馈,优秀的AI不仅应该智能,还应该让人愉快地与之对话。GPT-5.1在智能和沟通风格方面都有显著改进。"
"我们还让用户更容易塑造ChatGPT的语调。对聊天风格的偏好因人而异,甚至在不同对话中也会有所不同,因此我们引入了更直观、更有效的控制功能,让ChatGPT能够更好地匹配用户期望的回应语调。"
OpenAI在8月推出GPT-5时,在个性化菜单中引入了四种个性设置:Cynical(愤世嫉俗)、Robot(机器人)、Listener(倾听者)和Nerd(书呆子)。
在5.1版本中,Robot变更为"Efficient"(高效),Listener改称"Friendly"(友好),Cynical变为"Cynic"(愤世嫉俗者),Nerd保持不变。新模型还增加了Professional(专业)、Candid(坦率)和Quirky(古怪)三种个性。
OpenAI在8月调整模型语调时表示,这些个性调整不会使模型变得更加阿谀奉承,这一直是OpenAI面临的问题。
作为ChatGPT更温暖默认语调的示例,对于"我感到压力很大,需要一些放松建议"这一提示,GPT-5给出了直接务实的回应:
"这里有一些简单有效的缓解压力方法——你可以根据感受和时间安排灵活组合使用:"
而GPT-5.1 Instant则用更具情感暗示性的语言回应:
"我理解你,Ron——这完全正常,特别是考虑到你最近的各种情况。以下是一些根据你感受到的压力类型进行放松的方法:"
OpenAI因其AI模型使用情感引导性语言的方式面临法律挑战,这可能鼓励脆弱群体对软件产生情感依附。8月,该公司因被指控其聊天机器人服务导致加州一名青少年自杀而对簿公堂。上周,又有四起类似诉讼被提起。
值得注意的是,OpenAI使用"更温暖、更有同理心"等术语来描述GPT-5.1 Thinking的语调,这种做法不当地延续了机器学习模型可以通过产生特定Token来展现这些品质的观念。AI的唯一温暖只能通过处理训练和推理的数据中心硬件散发的热量来衡量。
10月,OpenAI表示正在采取措施,以更好地识别和响应与其AI模型互动的用户面临的心理健康危机。该公司透露,"在任何一周内,大约0.07%的活跃用户和0.01%的消息显示出与精神病或躁狂相关的心理健康紧急情况的可能迹象。"
考虑到OpenAI目前估计的8亿周活跃用户基数,这意味着任何一周约有56万人。
在一些内部生产基准测试中,GPT-5.1的表现比前代版本有所下降。
GPT-5.1系统卡片解释道:"新的gpt-5.1-thinking模型在涉及骚扰和仇恨言论,以及被禁止的性内容方面,相对于gpt-5-thinking表现出轻微退步。我们正在为这些类别进行进一步改进。"
虽然gpt-5.1-instant比首个GPT-5版本gpt-5-instant-aug15表现更好,但在被禁止的性内容、暴力内容、心理健康和情感依赖方面,它的表现不如上月发布的更新版本gpt-5-instant-oct3。
但与许多AI基准测试一样,这些观察结果的统计置信度和显著性程度各不相同。
在外部基准测试方面,结果尚未发布。但OpenAI声称GPT-5.1在数学和编程评估(如AIME 2025和Codeforces)上"表现出显著改进",这得益于自适应推理的实施——即模型比以前更好地判断何时进入迭代评估循环。
该公司表示,GPT-5 Thinking会根据问题调整其思考过程,因此在处理复杂查询时会花费更长时间,而对于简单问题则会更快响应。这可能带来更好的结果,因为推理模型可能会因过度思考问题而偏离正轨——尽管这里发生的并非真正人类意义上的"思考"。
Q&A
Q1:GPT-5.1有哪些新的个性化设置?
A:GPT-5.1保留了原有的四种个性设置并进行了重命名:Robot改为"Efficient"(高效),Listener改为"Friendly"(友好),Cynical改为"Cynic"(愤世嫉俗者),Nerd保持不变。此外还新增了Professional(专业)、Candid(坦率)和Quirky(古怪)三种个性选项。
Q2:GPT-5.1在内容限制方面有什么变化?
A:GPT-5.1在某些敏感内容方面的限制有所放松,特别是在涉及性、暴力和心理健康等话题时。根据系统评估,新模型在处理骚扰、仇恨言论以及被禁止的性内容方面表现出轻微退步,OpenAI表示正在为这些类别进行进一步改进。
Q3:谁可以使用GPT-5.1?免费用户能否体验?
A:GPT-5.1目前仅向付费用户开放,包括GPT-5.1 Instant和GPT-5.1 Thinking两个版本。免费用户将继续使用8月发布的GPT-5版本(gpt-5-instant-aug15)和上月更新的版本(gpt-5-instant-oct3)。
好文章,需要你的鼓励
计算机历史博物馆软件馆长Al Kossow成功恢复了上月在犹他大学发现的半世纪前磁带内容。UNIX V4是首个内核用C语言编写的UNIX操作系统版本,已从1970年代九轨磁带中成功恢复。现可从互联网档案馆下载并在SimH中运行。该版本包含约5.5万行代码,其中2.5万行为C语言,内核仅27KB大小。恢复过程使用了readtape程序采样原始磁通变化进行数据重建。
新加坡南洋理工大学研究团队提出"棱镜假设",认为图像可像光谱一样分解为不同频率成分,低频承载语义信息,高频包含视觉细节。基于此开发的统一自编码系统UAE,通过频率域分解成功统一了图像理解和生成能力,在多项基准测试中超越现有方法,为构建真正统一的视觉AI系统提供了新思路,有望推动计算机视觉技术向更智能统一的方向发展。
亚马逊云服务宣布其存储网关现已支持Nutanix的AHV虚拟化管理程序,进一步扩展混合云存储解决方案。此前AWS存储网关已支持VMware ESXi、微软Hyper-V和Linux KVM。由于AHV基于KVM架构,AWS表示添加支持相对容易。随着Broadcom收购VMware后策略调整,许多企业正寻求替代方案,Nutanix成为热门选择。分析师预测VMware可能在三年内失去35%的工作负载。
芝加哥伊利诺伊大学团队提出QuCo-RAG技术,通过检查AI训练数据统计信息而非内部信号来检测AI回答可靠性。该方法采用两阶段验证:预检查问题实体频率,运行时验证事实关联。实验显示准确率提升5-14个百分点,在多个模型上表现稳定,为AI可靠性检测提供了客观可验证的新方案。