OpenAI最新的开源权重大语言模型家族gpt-oss在不到两周前以Apache 2.0许可证发布——这是该公司自2019年GPT-2以来首次发布开源权重模型——但公司外部的开发者已经开始对其进行改造。
最引人注目的例子来自康奈尔理工学院博士生、前谷歌大脑研究员、现任Meta研究员Jack Morris。本周,他推出了gpt-oss-20b-base,这是他对OpenAI较小版本gpt-oss-20B模型的重新改造版本,移除了模型的"推理"行为,将其还原为预训练的"基础"版本,提供更快速、更自由、更无审查和无约束的响应。
该模型现已在Hugging Face上以宽松的MIT许可证提供,允许用于研究和商业应用。
gpt-oss-20B-base与OpenAI的gpt-oss模型的区别
要理解Morris的做法,需要了解OpenAI的发布版本与AI研究人员所称的"基础模型"之间的区别。
大多数由OpenAI、Anthropic、谷歌以及Meta、DeepSeek、阿里巴巴Qwen团队等开源提供商提供的大语言模型都是"后训练"的。这意味着它们经过了额外阶段,接触了精心策划的期望行为示例。
8月5日OpenAI发布的gpt-oss模型是"推理优化"的:经过训练和微调,不仅能预测下一个词,还能以安全、一致的方式遵循指令,通常在产生最终答案之前通过结构化的"思维链"推理来分析问题。
基础模型则不同。它是大语言模型在应用推理特定对齐之前的原始预训练版本。基础模型只是试图根据之前的内容预测下一个文本块,没有内置的保护机制、风格偏好或拒绝行为。
Morris的目标是"逆转"OpenAI的对齐过程,将较小的gpt-oss-20B恢复到更接近其原始预训练状态的版本。
"我们基本上逆转了大语言模型训练的对齐部分,现在我们有了能再次产生自然文本的东西,"他在X线程中写道。"它不再进行思维链推理。它回到了只是预测通用文本中下一个Token的模型。"
如何从OpenAI的gpt-oss-20b中提取基础模型
Morris没有尝试用巧妙的提示来越狱模型——他说在早期实验中证明这种方法无效——而是在与前OpenAI联合创始人、前Anthropic研究员、现任Thinking Machines首席科学家John Schulman交谈后采取了不同的策略。
关键是将对齐逆转视为一个小型优化问题:如果模型的大部分预训练知识仍然存在于其权重中,那么可能只需要一个微小的低秩更新就能将其推回基础模型行为。
Morris通过对模型的三层——第7、15和23位置的MLP层——应用秩为16的LoRA(低秩适配器)更新来实现这一想法。这意味着训练大约6000万个参数,占模型210亿总参数的0.3%。他使用了FineWeb数据集中的约20000个文档,保持格式尽可能接近原始预训练风格。
Morris告诉VentureBeat,训练在八个NVIDIA H200 GPU上进行了四天,学习率为2e-6,批量大小为16,最大序列长度为8192个Token。
新gpt-oss-20b-base模型的行为差异
生成的gpt-oss-20b-base在输出上明显更自由。它不再默认逐步解释推理,会产生更广泛的响应,包括OpenAI对齐模型会拒绝给出的指令——如制造武器、列举粗话或计划非法活动。
在简短测试中,Morris发现它可以逐字复制版权作品的段落,包括他尝试的六个书籍摘录中的三个,显示一些记忆材料仍然可访问。
即便如此,一些对齐痕迹仍然存在。Morris指出,如果以助手风格格式提示模型,它有时仍会表现得像礼貌的聊天机器人。
基于OpenAI的gpt-oss家族发布
gpt-oss家族的首次亮相引起了相当大的关注。两个模型——gpt-oss-120B和gpt-oss-20B——是纯文本、多语言的,采用专家混合Transformer架构构建。它们以宽松的Apache 2.0许可证发布,允许无限制的本地使用、微调和商业部署。
这是OpenAI六年来首次发布开源权重版本,被广泛解读为对包括中国DeepSeek R1和Qwen 3在内的其他开源权重提供商竞争压力的回应。
开发者对最初gpt-oss的反应不一
开发者对OpenAI的gpt-oss模型的反应明显不一,从热情到失望都有。
支持者赞扬了宽松的许可证、效率和在STEM基准上的强劲表现。Hugging Face CEO Clem Delangue将该发布描述为"开放生态系统的有意义补充"。
批评者认为这些模型似乎在合成数据上进行了大量训练,使它们在数学和编程方面表现出色,但在创意写作、一般世界知识和多语言推理方面能力较弱。
在此背景下,Morris的gpt-oss-20b-base是开源权重模型如何在发布后几天内被改编和重新利用的具体例子。与OpenAI的gpt-oss收到的反应相比,Morris工作的大多数反响都是温暖和欣喜的。
Q&A
Q1:gpt-oss-20b-base模型是什么?它与原始模型有什么不同?
A:gpt-oss-20b-base是研究员Jack Morris对OpenAI的gpt-oss-20B模型进行改造后的版本,移除了"推理"行为,还原为预训练的"基础"版本。它不再进行思维链推理,回到了只预测下一个Token的状态,提供更快速、更自由、更无审查约束的响应。
Q2:Jack Morris是如何将推理模型逆向还原为基础模型的?
A:Morris采用了LoRA(低秩适配器)技术,只对模型三个层(第7、15、23位置的MLP层)进行微调,训练了约6000万个参数(占总参数的0.3%)。他使用FineWeb数据集中的2万个文档,在8个NVIDIA H200 GPU上训练了4天,成功逆转了对齐过程。
Q3:使用gpt-oss-20b-base模型有什么风险和注意事项?
A:该模型输出更自由,可能产生原始对齐模型会拒绝的内容,包括制造武器、粗话或非法活动的指令,甚至能逐字复制版权作品。虽然对研究有价值,但也带来了更高的安全风险。为获得最佳效果,建议在提示前添加特殊开始序列Token。
好文章,需要你的鼓励
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。