Meta于周三正式发布了Muse系列的首款AI模型——Spark,并将其定位为"对公司AI工作的全面重构"。
Muse Spark是Meta超级智能实验室推出的首个产品。该实验室成立于约一年前,目标宏大,致力于"为每个人实现个人超级智能"。此次发布标志着Meta与此前开源Llama系列模型的明确切割——Llama系列无论是在用户反馈还是独立大语言模型排行榜上,表现均平平无奇。尽管Spark将作为闭源专有模型发布,Meta创始人兼CEO马克·扎克伯格在Threads上发帖表示,Muse系列未来将"包含新的开源模型"。
Meta表示,Muse Spark将充分利用Instagram、Facebook、Threads等平台上发布的内容,这与xAI旗下的Grok整合X平台内容的做法相似。目前,这意味着Muse Spark可以根据用户的提问,关联与某地点或热门话题相关的公开帖子。Meta表示,未来还将扩展至"引用用户推荐内容与分享内容的新功能",并实现"将短视频Reels、图片和帖子直接融入回答,并向内容创作者注明来源"。
沉思模式与Token压缩
在随Spark发布一同公开的技术博客中,Meta列出了一系列AI基准测试结果,其中Muse Spark的标准思考模式在多项指标上与OpenAI、Anthropic、Google和xAI的竞争模型持平甚至略胜一筹。不过,该博客也坦承"我们在某些领域仍存在性能差距,例如长周期智能体系统和编程工作流,并将持续投入改进"。
同一篇博客中,Meta还重点介绍了"沉思模式"(Contemplating Mode)。该模式支持"协调多个智能体并行推理",目前正在"逐步推出"中。通过最多16个智能体同步协作思考,Meta表示沉思模式"在保持相近延迟的前提下实现了更优越的性能"。据Meta公布的数据,该模式在"人类最终考试"(Humanity's Last Exam)基准测试中,借助外部工具取得了58.4分的高分。
此前,Llama系列模型曾因未能充分利用强化学习而受到批评。对此,Meta表示Muse Spark在预训练完成后经过额外的强化学习步骤,展现出"平稳可预测的性能提升","在不损害推理多样性的前提下提高了模型稳定性"。该强化学习系统还引入了"思考时间惩罚"机制,以平衡"最大化正确率"与优化Token使用数量之间的需求。在AIME 2025基准测试中,Meta观察到一个"相变"现象:模型开始将同等准确的推理压缩为"显著更少的Token"。经过这一压缩过程后,后续训练的模型Token用量逐步回升,但总体耗时少于压缩前的版本,同时实现了更高的准确率。
此次Muse Spark的发布,还伴随着Meta"高级AI扩展框架"的更新。Meta表示,该框架现已覆盖更广泛的潜在AI风险类别,并声明该模型"在所有已测量的前沿风险类别中均处于安全范围内",但表示更多细节将在即将发布的《安全与准备报告》中公开。
目前,Muse Spark已可通过Meta AI应用及meta.ai网站使用,同时向"精选合作伙伴"开放私有预览API。Meta表示,该模型将于"未来数周内"在WhatsApp、Instagram、Facebook、Messenger以及AI眼镜上正式上线。
Q&A
Q1:Muse Spark和Meta之前的Llama系列模型有什么区别?
A:Muse Spark是Meta超级智能实验室推出的首款产品,代表Meta对此前AI工作的全面重构,与Llama系列完全切割。Llama是开源模型,在用户反馈和独立大语言模型排行榜上表现平平,而Muse Spark是闭源专有模型,性能在多项基准测试中与OpenAI、Anthropic、Google和xAI的竞争模型持平甚至更优。Meta也表示,Muse系列未来将包含新的开源模型。
Q2:Muse Spark的"沉思模式"是什么?有什么用?
A:沉思模式(Contemplating Mode)是Muse Spark的一项高级推理功能,目前正在逐步推出。它支持最多16个智能体同步并行推理,在保持相近响应延迟的前提下实现更优越的性能。在"人类最终考试"基准测试中,借助外部工具取得了58.4分的高分成绩。
Q3:Muse Spark现在可以在哪里使用?
A:Muse Spark目前已可通过Meta AI应用及meta.ai网站使用,同时向精选合作伙伴开放私有预览API。Meta计划在未来数周内将其扩展至WhatsApp、Instagram、Facebook、Messenger以及AI眼镜平台。
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。