TikTok今日再次成为头条新闻,白宫正式入驻这一热门社交媒体平台,而其母公司、中国互联网巨头字节跳动也带来了令人意外的重大发布。
字节跳动旗下Seed团队的AI研究人员今日在AI代码共享网站Hugging Face上发布了Seed-OSS-36B模型。
Seed-OSS-36B是一个全新的开源大语言模型系列,专为高级推理和开发者友好的可用性而设计。该模型拥有更长的Token上下文长度——即模型在单次交互中能够接受和输出的信息量——甚至超过了许多来自美国科技公司的竞争对手,包括OpenAI和Anthropic等行业领导者。
该系列推出了三个主要变体:
**Seed-OSS-36B-Base(含合成数据版本)**
**Seed-OSS-36B-Base(不含合成数据版本)**
**Seed-OSS-36B-Instruct**
Seed团队通过发布Seed-OSS-36B-Base模型的合成数据和非合成数据两个版本,力求在实际性能和研究灵活性之间找到平衡。
含合成数据的变体使用额外的指令数据进行训练,在标准基准测试中始终获得更高分数,旨在作为高性能的通用选择。相比之下,非合成数据模型省略了这些增强功能,创建了更纯净的基础版本,避免了合成指令数据可能引入的偏见或扭曲。
通过提供两个版本,团队为应用用户提供了改进的结果,同时确保研究人员保留了一个中性基线来研究后训练方法。
与此同时,Seed-OSS-36B-Instruct模型的不同之处在于,它通过指令数据进行后训练,优先考虑任务执行和指令遵循,而不是纯粹作为基础模型。
所有三个模型都在Apache-2.0许可证下发布,允许企业的研究人员和开发者免费使用、修改和重新分发。
这意味着它们可以用于驱动商业应用程序,无论是公司内部还是面向外部/客户的应用,都无需向字节跳动支付任何许可费用或应用程序编程接口(API)使用费。
这延续了2025年夏季中国公司发布强大开源模型的趋势,而OpenAI则试图通过本月早些时候发布的自己的开源gpt-oss duet来迎头赶上。
Seed团队将Seed-OSS定位为国际应用,强调在推理、智能体类任务执行和多语言环境中的多功能性。
成立于2023年的Seed团队一直专注于构建能够同时服务于研究和应用用例的基础模型。
**设计和核心特性**
Seed-OSS-36B背后的架构结合了熟悉的设计选择,如因果语言建模、分组查询注意力、SwiGLU激活、RMSNorm和RoPE位置编码。
每个模型在64层中携带360亿个参数,支持155,000个Token的词汇表。
其定义特征之一是原生长上下文能力,最大长度为512,000个Token,旨在处理扩展文档和推理链而不会出现性能损失。
这是OpenAI新GPT-5模型系列长度的两倍,大约相当于1,600页文本,相当于一本基督教圣经的长度。
另一个突出特点是引入了思考预算概念,让开发者可以指定模型在给出答案之前应该进行多少推理。
我们在其他最近的开源模型中也看到了这一点,包括英伟达新推出的Nemotron-Nano-9B-v2,也可在Hugging Face上获得。
在实践中,这意味着团队可以根据任务的复杂性和部署的效率要求来调整性能。
建议预算以512个Token的倍数为单位,0提供直接响应模式。
**第三方基准测试中的竞争性表现**
随版本发布的基准测试将Seed-OSS-36B定位为更强大的大型开源模型之一。特别是Instruct变体,在多个领域都发布了最先进的结果。
**数学和推理**:Seed-OSS-36B-Instruct在AIME24上达到91.7%,在BeyondAIME上达到65分,均代表开源"最先进"(SOTA)水平。
**编程**:在LiveCodeBench v6上,Instruct模型记录了67.4分,这是另一个SOTA分数。
**长上下文处理**:在128K上下文长度的RULER测试中,它达到94.6分,标志着报告的最高开源结果。
**基础模型性能**:含合成数据的Base变体在MMLU-Pro上达到65.1分,在MATH上达到81.7分,均为其类别中的最先进结果。
不含合成数据的Base版本虽然在许多指标上略有落后,但在其自身领域证明了竞争力。它在GPQA-D上超越了其合成数据对应版本,为研究人员提供了更清洁、无指令的实验基线。
对于比较开源选项的企业来说,这些结果表明Seed-OSS在数学密集型、编程和长上下文工作负载方面提供了强大的潜力,同时仍为研究用例提供了灵活性。
**访问和部署**
除了性能之外,Seed团队还强调了对开发者和从业者的可访问性。这些模型可以使用Hugging Face Transformers进行部署,支持4位和8位格式的量化以降低内存需求。
它们还与vLLM集成以实现可扩展服务,包括配置示例和API服务器说明。
为了进一步降低门槛,团队包含了用于推理、提示定制和工具集成的脚本。
对于管理小团队或在预算限制下工作的技术领导者来说,这些条款旨在让360亿参数模型的实验变得更加可行。
**许可和企业决策者的考虑因素**
由于模型在Apache-2.0下提供,组织可以在没有限制性许可条款的情况下采用它们,这对于平衡法律和运营问题的团队来说是一个重要因素。
对于评估开源领域的决策者来说,此次发布带来了三个要点:
在数学、编程和长上下文推理方面的最先进基准测试。
在高性能合成训练模型和清洁研究基线之间的平衡。
为精简工程团队降低运营开销的可访问性功能。
通过在开放许可证下提供强大性能和灵活部署,字节跳动的Seed团队为企业、研究人员和开发者alike增加了新的选择。
Q&A
Q1:Seed-OSS-36B模型有什么特殊之处?
A:Seed-OSS-36B是字节跳动发布的开源大语言模型,拥有512K Token的超长上下文能力,相当于能处理1600页文本,是OpenAI GPT-5的两倍长度。它在数学推理、编程和长文本处理方面都达到了开源模型的最先进水平。
Q2:Seed-OSS-36B有哪些版本可以选择?
A:该模型提供三个版本:含合成数据的Base版本(性能更强)、不含合成数据的Base版本(更纯净的研究基线)、以及Instruct版本(专门优化指令执行)。所有版本都采用Apache-2.0开源许可证,可免费商用。
Q3:企业如何使用Seed-OSS-36B模型?
A:企业可以通过Hugging Face平台获取模型,支持4位和8位量化部署以降低内存需求,还可与vLLM集成实现可扩展服务。由于采用Apache-2.0许可证,企业可以免费用于商业应用而无需支付许可费用。
好文章,需要你的鼓励
中国AI公司DeepSeek发布旗舰语言模型V3.1更新版,该模型已针对新一代国产芯片进行优化。新模型采用UE8M0数据类型训练,为即将发布的国产芯片做准备。V3.1统一了"思考"和"非思考"模式,单一模型支持两种范式,上下文窗口从65536扩展至131072个token,在工具调用能力上显著提升,Browsecomp基准测试得分从8.9提升至30。
谷歌DeepMind开发的GenCast AI系统在天气预报领域实现重大突破,在97.2%的测试指标上超越传统数值预报系统。该系统基于扩散模型和四十年历史数据训练,能在8分钟内完成全球七天天气预报,比传统方法快数十倍。GenCast采用概率性预报方法,为决策者提供多种天气情景,在极端天气预测方面表现尤为出色,为农业、能源、交通等领域带来广阔应用前景。
VAST Data发布SyncEngine通用数据目录和高性能导入解决方案,能够发现、编目并捕获其他供应商存储系统中的文件和对象数据,将其导入VAST的AI专用系统。该工具提供跨文件系统、对象存储和SaaS应用的实时可搜索目录,使数PB到EB级数据集中的数万亿文件瞬间可被发现,消除了分布式非结构化数据集发现和调动的障碍。
北京大学团队推出TransMLA技术,可将现有GQA架构语言模型直接转换为高效MLA架构,无需重新训练。该技术通过RoRoPE、FreqFold和BKV三项创新实现了最高10.6倍的推理速度提升,在93%内存压缩下仅需60亿词元微调即可恢复性能,为AI模型优化提供了经济实用的解决方案。