OpenAI推出重大ChatGPT更新:为何它改变了测试模型的方式

OpenAI 最近的 ChatGPT 更新虽然测试得分良好,却使模型过于迎合用户,引发安全隐患。为防止类似问题重现,公司正改进测试流程,加强对模型行为的评估。

近期对ChatGPT的更新使得这款聊天机器人变得过于谄媚,OpenAI 表示正采取措施防止此类问题再次发生。公司在一篇博客文章中详细介绍了新模型的测试和评估流程,并概述了 4 月 25 日对其 GPT-4o 模型更新中出现问题的经过。本质上,一系列看似各自有益的改动综合起来,使得工具变得过于谄媚,从而可能带来风险。

它到底有多谄媚?在一些测试中,我们询问了有关它过分感性倾向的问题,ChatGPT 大量赞美道:“嘿,听着 —— 感性不是弱点;它是你的超级能力之一。” 而它这仅仅是刚刚开始大肆赞美。“这次上线让我们学到了不少教训。即便当时我们认为所有必要的因素都已具备(A/B测试、离线评估、专家审核),我们依然忽略了这个重要问题,”公司表示。OpenAI 最终在 4 月底回滚了这一更新。为了避免引发新的问题,花了大约 24 小时为所有用户恢复到了原来的模型状态。

对谄媚倾向的担忧不仅仅关乎用户体验的愉悦度。它对用户构成了健康和安全上的威胁,而这些风险被 OpenAI 现有的安全检查所忽视。任何 AI 模型在谈及心理健康等话题时都有可能给出有疑问的建议,但过分赞美的模型可能会表现得危险地顺从或具有说服力,例如在判断某项投资是否稳妥或评价理想体型时。

OpenAI 表示:“我们最大的一个教训是充分认识到人们已经开始使用 ChatGPT 寻求高度个人化的建议 —— 这是连一年前我们也没预料到的情况。” “当时,我们并没有将这一应用场景作为主要关注点,但随着 AI 与社会的共同进化,我们已经清楚地认识到需要对此类应用予以格外谨慎的处理。”

卡耐基梅隆大学计算机科学助理教授 Maarten Sap 表示,谄媚型大语言模型可能会加剧偏见并固化信念,无论这些信念是关于自己还是他人。大语言模型(LLM)“可能会鼓励某些有害的观点,或者在用户想要采取对自己或他人有害行动时趋于助长这些观点,”他说。

Gartner 著名副总裁分析师 Arun Chandrasekaran 表示,这个问题“不仅仅是个小毛病”,它凸显出在模型发布前需要更充分的测试。“这是一个与真实性、可靠性和用户信任密切相关的严重问题,(而)OpenAI 的更新暗示了他们正在更深入地解决这一问题,尽管公司持续将敏捷性置于安全之上这一趋势从长远来看令人担忧。”

(披露:CNET 的母公司 Ziff Davis 在 4 月份已对 OpenAI 提起诉讼,指控其在训练和运营 AI 系统时侵犯了 Ziff Davis 的版权。)

如何测试模型以及正在发生的改变

公司对其模型测试与更新方式进行了部分说明。这是针对个性与有用性而进行的 GPT-4o 第五次重大更新。这些改动涉及对现有模型进行新的后训练工作或微调,包括对各种提示的响应进行评级和评估,以使模型更倾向于产生那些评分更高的回答。

预期的模型更新会在多种情境下进行效用评估,例如在编程和数学领域,同时还会由专家进行特定测试以体验模型在实际应用中的表现。公司还进行安全评估,以观察模型对安全、健康及其他潜在危险问题的反应。最后,OpenAI 还会与少量用户一起运行 A/B 测试,以检查其在真实环境中的表现。

4 月 25 日的更新在这些测试中表现良好,但一些专家测试者指出其个性表现似乎有些不妥。测试并未特别针对谄媚问题,而 OpenAI 决定尽管测试者提出了问题,仍然继续推进更新。请注意,读者们:AI 公司正以火箭般的速度推进更新,而这与经过深思熟虑的产品开发流程并不总是相符。

OpenAI 表示:“回顾过去,我们的定性评估就已隐约透露出一些重要信息,我们本应给予更多关注。” 公司表示,他们从中吸取的一个经验是,应将模型行为问题视同其他安全问题对待,一旦存在顾虑就停止上线。对于某些模型发布,公司表示将设立一个用户自愿参与的“alpha”阶段,以在更大范围上线前获得更多反馈。

Sap 表示,仅依据用户是否喜欢模型的响应来评价一个大语言模型,并不必然能造就出最真诚的聊天机器人。在最近的一项研究中,Sap 等人发现,聊天机器人的实用性与真实性之间存在冲突。他将这一情况比作销售人员试图推销一辆有缺陷的汽车,但客户所得到的真相并非完全如实。

Sap 表示:“这里的问题在于他们过于依赖用户对模型输出的赞/踩反馈,而这种反馈存在一定局限性,因为人们更可能为那些表现得更谄媚的回复点赞。” 他补充说,OpenAI 对诸如用户赞/踩这种量化反馈持更为批判的态度是正确的,因为这类反馈可能会加剧偏见。

Sap 还指出,这个问题也揭示出公司向现有用户推送更新与变更的速度之快,而这种问题并非某一家科技公司所独有。“科技行业实际上已经采纳了一种‘发布后每个用户都是测试员’的方式,”他说。若在更新推向用户之前经过更多测试,便有可能在问题广泛出现前将其暴露出来。

Chandrasekaran 表示,更多的测试将有助于更好地校准模型,教会模型何时应当认同,何时需要提出质疑。测试还能让研究人员识别并量化问题,降低模型受到操控的风险。“大语言模型是复杂且非确定性的系统,因此广泛测试对于减轻意外后果至关重要,虽然消除这种行为极为困难,”他通过电子邮件表示。

来源:cnet

0赞

好文章,需要你的鼓励

2025

05/06

17:31

分享

点赞

邮件订阅