春季如约而至,谷歌、微软、阿里巴巴和英伟达等科技巨头再度掀起开源权重AI模型的新浪潮。但这一次,感觉有些不同寻常。
过去,这些模型更像是"玩具":虽然在规模或创新性上令人印象深刻,但本质上仍是研究项目或概念验证,与OpenAI、Anthropic或谷歌的顶级模型相比仍有相当大的差距。
然而,Qwen 3.5、谷歌的Gemma 4,以及微软的MAI语音与图像模型,却呈现出截然不同的面貌。这些模型不再只是概念验证,而更像是真正面向企业的产品。
IDC高级研究总监安德鲁·巴斯(Andrew Buss)向媒体表示:"我们已经从'令人感兴趣'迈入了'真正严肃的企业级平台'阶段。"
这批模型揭示了一个清晰的现实:企业级AI与前沿AI之间的鸿沟在过去几年中愈发明显,而那些功能最强大的前沿模型,已经超出了许多企业的承受能力。
巴斯说:"我认为我们正在目睹一种分化趋势。一方面,出现了那些体量庞大、追求全能的综合性模型;另一方面,针对特定场景或查询类型的小型专用模型也在快速崛起。"
前沿模型的主权AI盲区
使用OpenAI或Anthropic的顶级模型,意味着企业需要将潜在的敏感客户数据或知识产权暴露给API接口或聊天机器人。
尽管两家公司均声称不会将企业或API数据用于模型训练,但这些公司此前已多次因版权问题被诉诸法庭。
企业或许愿意借助Gemini或Copilot来起草邮件或销售提案,但绝不会轻易将核心专有数据交由其处理。
另一条路也并非坦途。来自DeepSeek、阿里巴巴、Moonshot AI和MiniMax等中国厂商的大型模型,在性能上已能接近OpenAI或Anthropic,但这些模型仍需要相当规模的基础设施投入。即便是英伟达和AMD面向企业的系统,单台售价也在25万至50万美元之间。
不过,巴斯指出,根据具体应用场景,企业未必需要前沿级别的模型——真正重要的是模型能否足够出色地完成预期任务。
就规模而言,谷歌、阿里巴巴、微软和英伟达最新推出的开源模型不仅竞争力相当出色,运行成本也相对低廉。
在Arena AI的文本排行榜上(该榜单允许公众投票评选最佳输出模型),谷歌的Gemma 4 31B(31B指其包含310亿个参数)目前排名第四,仅次于Z.AI的GLM-5和Moonshot AI的Kimi 2.5 Thinking——后两者参数量分别高达7440亿和1万亿,体量要大出数个数量级。
巴斯表示:"各类规模的企业对AI都有着强烈的需求,我们认为中端市场同样存在巨大机遇。为此,我们需要多样化的基础设施硬件,以及能够在其上运行的各类模型。"
谷歌最新发布的310亿参数模型可轻松在单张RTX Pro 6000 Blackwell显卡上以完整的16位精度运行,同时仍有充裕的资源支撑合理数量的并发请求和交互操作。
这款显卡的市场售价通常在8000至10000美元之间。Qwen 3.5的情况与此类似——除两个最大规格的版本外,其余模型均可在单张GPU上轻松运行。
巴斯还指出,在许多场景下,这些小型企业级模型甚至无需大量算力支持。他表示:"很多时候我们并不需要GPU加速,相当一部分AI工作负载完全可以在一台配置较新的CPU服务器上加载并运行。"
这些更小巧、更专注的模型意味着,使用QLoRA微调或强化学习等技术对其进行定制时,几乎不需要额外的资源投入。
究竟发生了什么变化?
是什么让这些模型的能力实现了如此大幅的提升?其实,背后发生的变化相当深远。
过去一年间,不仅模型训练技术取得了一系列突破,驱动这些模型实际落地应用的框架也得到了显著完善。
不少人还记得DeepSeek R1引发的市场轰动——这是最早采用强化学习(RL)复现GPT-o1思维链推理能力的开源权重前沿模型之一,通过以时间换质量的方式提升输出水平。
这种如今被称为"测试时扩展"(test-time scaling)的方法,让小型模型得以通过"更长时间的思考"来弥补参数量不足的局限。
与此同时,过去一年中越来越多的模型开始支持视觉和音频处理,具备了分析图像数据的能力;更智能的架构设计和更先进的压缩技术,则进一步降低了运行这些模型所需的算力和内存资源。
但最为关键的变化,或许在于用于驱动这些模型完成实际任务的软件框架已经走向成熟。
这些框架使模型不再局限于训练数据——它们能够从互联网、数据库和API中检索信息,并通过工具调用基于检索结果采取行动。
谷歌和英伟达的模型在训练之初便将函数调用(function calling)纳入核心考量。换言之,这些模型并非设计为独立运行的系统。部分模型(如微软的MAI)更进一步,针对语音识别和图像生成等特定领域进行了深度优化。
巴斯指出,如何为具体任务选择合适的模型,随之成为一大挑战,并认为某种形式的推荐系统可能不可或缺。
模型开发者能从中获得什么?
在本地运行可访问专有数据的智能体,本身具备独特的商业价值。一方面,尽管这些模型是开源的,但其中仍存在一定程度的生态绑定——基于这些模型构建的智能体,其系统提示词和工具配置都是针对特定架构深度调优的。
巴斯解释道,这背后的逻辑是触达那些大型模型无法覆盖的市场。
"如果有人选择基于你的技术、方法和知识产权进行开发,他们就更有可能向上迁移并留在你的生态系统中。这本质上是在入口处布局产品……从早期就吸引用户,随着他们的成长,他们往往会持续留在你的阵营。"
除了生态布局层面的考量,这些本地化模型还有助于降低数据中心的能耗。这一思路与OpenAI的GPT-5有异曲同工之处——后者并非单一模型,而是由多个子模型组成,系统会根据请求的复杂程度和不同策略动态进行路由分发。
类似的逻辑同样可以以分布式方式落地:本地运行的路由模型将涉及专有数据的请求定向至本地大语言模型处理,而对敏感度要求较低的请求则卸载至外部API提供商。
巴斯表示:"我认为可选方案是一个完整的谱系,涵盖从完全私有的本地部署、托管在同址数据中心的专用节点、公有云中的专属实例,到针对非敏感负载的共享环境以节省成本——各种选择应有尽有。"
Q&A
Q1:开源权重AI模型和前沿AI模型有什么区别?
A:前沿AI模型(如OpenAI、Anthropic的顶级模型)参数规模更大、能力更强,但使用成本高昂,且需要将企业数据暴露给外部API,存在数据安全隐患。开源权重模型(如谷歌Gemma 4、阿里巴巴Qwen 3.5)参数量相对较小,可在企业本地部署,运行成本低,数据不必外传,且随着技术进步,性能已大幅提升,足以满足多数企业实际需求。
Q2:Gemma 4 31B模型需要什么硬件才能运行?
A:谷歌Gemma 4 31B模型可在单张RTX Pro 6000 Blackwell显卡上以完整16位精度运行,该显卡市场售价通常在8000至10000美元之间。对于部分AI工作负载,甚至不需要GPU加速,使用配置较新的CPU服务器即可加载并运行,大幅降低了企业的硬件投入门槛。
Q3:企业部署本地大语言模型有哪些优势?
A:企业在本地部署开源权重大语言模型,主要有以下几点优势:第一,数据安全,专有数据无需上传至外部服务;第二,成本可控,小型模型对算力要求低,运行成本远低于前沿模型;第三,灵活定制,可使用QLoRA微调或强化学习等技术进行低成本定制;第四,支持智能体,可结合工具调用框架访问数据库和API,完成实际业务任务。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。