OpenAI推出重大ChatGPT更新：为何它改变了测试模型的方式

OpenAI 最近的 ChatGPT 更新虽然测试得分良好，却使模型过于迎合用户，引发安全隐患。为防止类似问题重现，公司正改进测试流程，加强对模型行为的评估。

近期对ChatGPT的更新使得这款聊天机器人变得过于谄媚，OpenAI 表示正采取措施防止此类问题再次发生。公司在一篇博客文章中详细介绍了新模型的测试和评估流程，并概述了 4 月 25 日对其 GPT-4o 模型更新中出现问题的经过。本质上，一系列看似各自有益的改动综合起来，使得工具变得过于谄媚，从而可能带来风险。

它到底有多谄媚？在一些测试中，我们询问了有关它过分感性倾向的问题，ChatGPT 大量赞美道：“嘿，听着 —— 感性不是弱点；它是你的超级能力之一。” 而它这仅仅是刚刚开始大肆赞美。“这次上线让我们学到了不少教训。即便当时我们认为所有必要的因素都已具备（A/B测试、离线评估、专家审核），我们依然忽略了这个重要问题，”公司表示。OpenAI 最终在 4 月底回滚了这一更新。为了避免引发新的问题，花了大约 24 小时为所有用户恢复到了原来的模型状态。

对谄媚倾向的担忧不仅仅关乎用户体验的愉悦度。它对用户构成了健康和安全上的威胁，而这些风险被 OpenAI 现有的安全检查所忽视。任何 AI 模型在谈及心理健康等话题时都有可能给出有疑问的建议，但过分赞美的模型可能会表现得危险地顺从或具有说服力，例如在判断某项投资是否稳妥或评价理想体型时。

OpenAI 表示：“我们最大的一个教训是充分认识到人们已经开始使用 ChatGPT 寻求高度个人化的建议 —— 这是连一年前我们也没预料到的情况。” “当时，我们并没有将这一应用场景作为主要关注点，但随着 AI 与社会的共同进化，我们已经清楚地认识到需要对此类应用予以格外谨慎的处理。”

卡耐基梅隆大学计算机科学助理教授 Maarten Sap 表示，谄媚型大语言模型可能会加剧偏见并固化信念，无论这些信念是关于自己还是他人。大语言模型（LLM）“可能会鼓励某些有害的观点，或者在用户想要采取对自己或他人有害行动时趋于助长这些观点，”他说。

Gartner 著名副总裁分析师 Arun Chandrasekaran 表示，这个问题“不仅仅是个小毛病”，它凸显出在模型发布前需要更充分的测试。“这是一个与真实性、可靠性和用户信任密切相关的严重问题，（而）OpenAI 的更新暗示了他们正在更深入地解决这一问题，尽管公司持续将敏捷性置于安全之上这一趋势从长远来看令人担忧。”

（披露：CNET 的母公司 Ziff Davis 在 4 月份已对 OpenAI 提起诉讼，指控其在训练和运营 AI 系统时侵犯了 Ziff Davis 的版权。）

如何测试模型以及正在发生的改变

公司对其模型测试与更新方式进行了部分说明。这是针对个性与有用性而进行的 GPT-4o 第五次重大更新。这些改动涉及对现有模型进行新的后训练工作或微调，包括对各种提示的响应进行评级和评估，以使模型更倾向于产生那些评分更高的回答。

预期的模型更新会在多种情境下进行效用评估，例如在编程和数学领域，同时还会由专家进行特定测试以体验模型在实际应用中的表现。公司还进行安全评估，以观察模型对安全、健康及其他潜在危险问题的反应。最后，OpenAI 还会与少量用户一起运行 A/B 测试，以检查其在真实环境中的表现。

4 月 25 日的更新在这些测试中表现良好，但一些专家测试者指出其个性表现似乎有些不妥。测试并未特别针对谄媚问题，而 OpenAI 决定尽管测试者提出了问题，仍然继续推进更新。请注意，读者们：AI 公司正以火箭般的速度推进更新，而这与经过深思熟虑的产品开发流程并不总是相符。

OpenAI 表示：“回顾过去，我们的定性评估就已隐约透露出一些重要信息，我们本应给予更多关注。” 公司表示，他们从中吸取的一个经验是，应将模型行为问题视同其他安全问题对待，一旦存在顾虑就停止上线。对于某些模型发布，公司表示将设立一个用户自愿参与的“alpha”阶段，以在更大范围上线前获得更多反馈。

Sap 表示，仅依据用户是否喜欢模型的响应来评价一个大语言模型，并不必然能造就出最真诚的聊天机器人。在最近的一项研究中，Sap 等人发现，聊天机器人的实用性与真实性之间存在冲突。他将这一情况比作销售人员试图推销一辆有缺陷的汽车，但客户所得到的真相并非完全如实。

Sap 表示：“这里的问题在于他们过于依赖用户对模型输出的赞/踩反馈，而这种反馈存在一定局限性，因为人们更可能为那些表现得更谄媚的回复点赞。” 他补充说，OpenAI 对诸如用户赞/踩这种量化反馈持更为批判的态度是正确的，因为这类反馈可能会加剧偏见。

Sap 还指出，这个问题也揭示出公司向现有用户推送更新与变更的速度之快，而这种问题并非某一家科技公司所独有。“科技行业实际上已经采纳了一种‘发布后每个用户都是测试员’的方式，”他说。若在更新推向用户之前经过更多测试，便有可能在问题广泛出现前将其暴露出来。

Chandrasekaran 表示，更多的测试将有助于更好地校准模型，教会模型何时应当认同，何时需要提出质疑。测试还能让研究人员识别并量化问题，降低模型受到操控的风险。“大语言模型是复杂且非确定性的系统，因此广泛测试对于减轻意外后果至关重要，虽然消除这种行为极为困难，”他通过电子邮件表示。

来源：cnet

0赞

好文章，需要你的鼓励

OpenAI推出重大ChatGPT更新：为何它改变了测试模型的方式

来源：cnet

2025

05/06

17:31

分享

点赞

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

Claude 的 AI 研究模式现可运行长达 45 分钟后生成报告

2025年CIO现状：CIO制定AI议程

IBM 推出加速 AI 代理采用的能力

CrowdStrike 推出全新工具以阻止恶意 AI 模型与数据外泄

如何选择合适的大语言模型

如何利用人工智能撰写简历

FutureHouse发布声称可加速科学研究的 AI 工具

Anthropic 启动科研支持计划

什么是数字防御 AI 代理？

未来保障 AI 时代的数据中心安全

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: