Meta于周三正式发布了Muse系列的首款AI模型——Spark,并将其定位为"对公司AI工作的全面重构"。
Muse Spark是Meta超级智能实验室推出的首个产品。该实验室成立于约一年前,目标宏大,致力于"为每个人实现个人超级智能"。此次发布标志着Meta与此前开源Llama系列模型的明确切割——Llama系列无论是在用户反馈还是独立大语言模型排行榜上,表现均平平无奇。尽管Spark将作为闭源专有模型发布,Meta创始人兼CEO马克·扎克伯格在Threads上发帖表示,Muse系列未来将"包含新的开源模型"。
Meta表示,Muse Spark将充分利用Instagram、Facebook、Threads等平台上发布的内容,这与xAI旗下的Grok整合X平台内容的做法相似。目前,这意味着Muse Spark可以根据用户的提问,关联与某地点或热门话题相关的公开帖子。Meta表示,未来还将扩展至"引用用户推荐内容与分享内容的新功能",并实现"将短视频Reels、图片和帖子直接融入回答,并向内容创作者注明来源"。
沉思模式与Token压缩
在随Spark发布一同公开的技术博客中,Meta列出了一系列AI基准测试结果,其中Muse Spark的标准思考模式在多项指标上与OpenAI、Anthropic、Google和xAI的竞争模型持平甚至略胜一筹。不过,该博客也坦承"我们在某些领域仍存在性能差距,例如长周期智能体系统和编程工作流,并将持续投入改进"。
同一篇博客中,Meta还重点介绍了"沉思模式"(Contemplating Mode)。该模式支持"协调多个智能体并行推理",目前正在"逐步推出"中。通过最多16个智能体同步协作思考,Meta表示沉思模式"在保持相近延迟的前提下实现了更优越的性能"。据Meta公布的数据,该模式在"人类最终考试"(Humanity's Last Exam)基准测试中,借助外部工具取得了58.4分的高分。
此前,Llama系列模型曾因未能充分利用强化学习而受到批评。对此,Meta表示Muse Spark在预训练完成后经过额外的强化学习步骤,展现出"平稳可预测的性能提升","在不损害推理多样性的前提下提高了模型稳定性"。该强化学习系统还引入了"思考时间惩罚"机制,以平衡"最大化正确率"与优化Token使用数量之间的需求。在AIME 2025基准测试中,Meta观察到一个"相变"现象:模型开始将同等准确的推理压缩为"显著更少的Token"。经过这一压缩过程后,后续训练的模型Token用量逐步回升,但总体耗时少于压缩前的版本,同时实现了更高的准确率。
此次Muse Spark的发布,还伴随着Meta"高级AI扩展框架"的更新。Meta表示,该框架现已覆盖更广泛的潜在AI风险类别,并声明该模型"在所有已测量的前沿风险类别中均处于安全范围内",但表示更多细节将在即将发布的《安全与准备报告》中公开。
目前,Muse Spark已可通过Meta AI应用及meta.ai网站使用,同时向"精选合作伙伴"开放私有预览API。Meta表示,该模型将于"未来数周内"在WhatsApp、Instagram、Facebook、Messenger以及AI眼镜上正式上线。
Q&A
Q1:Muse Spark和Meta之前的Llama系列模型有什么区别?
A:Muse Spark是Meta超级智能实验室推出的首款产品,代表Meta对此前AI工作的全面重构,与Llama系列完全切割。Llama是开源模型,在用户反馈和独立大语言模型排行榜上表现平平,而Muse Spark是闭源专有模型,性能在多项基准测试中与OpenAI、Anthropic、Google和xAI的竞争模型持平甚至更优。Meta也表示,Muse系列未来将包含新的开源模型。
Q2:Muse Spark的"沉思模式"是什么?有什么用?
A:沉思模式(Contemplating Mode)是Muse Spark的一项高级推理功能,目前正在逐步推出。它支持最多16个智能体同步并行推理,在保持相近响应延迟的前提下实现更优越的性能。在"人类最终考试"基准测试中,借助外部工具取得了58.4分的高分成绩。
Q3:Muse Spark现在可以在哪里使用?
A:Muse Spark目前已可通过Meta AI应用及meta.ai网站使用,同时向精选合作伙伴开放私有预览API。Meta计划在未来数周内将其扩展至WhatsApp、Instagram、Facebook、Messenger以及AI眼镜平台。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。