Meta于周三正式推出了Muse Spark,这是该公司去年斥巨资组建的AI团队所交出的首款人工智能模型。
目前,美国各大科技公司正面临巨大压力,需要证明其大规模AI投入能够产生实质性回报。对于Meta而言,风险尤为突出——该公司去年以143亿美元的代价将Scale AI首席执行官Alex Wang招致麾下,并向部分工程师开出高达数亿美元的薪酬方案,组建了一支全新的"超级智能"团队。这一举措旨在帮助Meta重回AI领域第一梯队,以弥补其Llama 4系列模型去年初表现不佳所带来的落差。所谓"超级智能",是指在思考能力上超越人类的AI系统。Muse Spark是该团队全新模型系列(内部代号"Avocado")中推出的第一款产品。
这也是Meta大约一年来首次发布新模型。目前,Muse Spark仅在使用量相对较少的Meta AI应用和网站上开放。Meta表示,未来几周内,该模型将逐步取代现有的Llama模型,为WhatsApp、Instagram、Facebook以及Meta系列智能眼镜上的聊天机器人提供支持。
Meta并未披露Muse Spark的参数规模——这通常是衡量AI系统算力并与竞争对手进行比较的核心指标。与此前开源发布Llama系列模型的做法不同,Meta此次也改变了策略,仅向未具名合作伙伴提供了Muse Spark的"私有预览版"。
Meta在一篇博客文章中表示:"这款初始模型在设计上体型轻巧、响应迅速,同时具备针对科学、数学和健康等领域复杂问题的推理能力。它是一个强大的基础,下一代模型已在研发之中。"
来自独立机构的评测结果显示,Muse Spark在语言理解和视觉理解等方面已接近谷歌、OpenAI和Anthropic等市场领军者的顶尖模型水平,但在代码生成和抽象推理等方面仍存在一定差距。
在评测机构Artificial Analysis汇编的综合AI测试排行榜上,Muse Spark并列第四位。
Meta首席执行官马克·扎克伯格此前已对外界的期望进行了适当管理。他在今年1月对投资者表示,他认为该团队的首批模型"会表现不错,但更重要的是,将体现出我们正在快速发展的轨迹"。他还表示:"我预计,随着我们持续发布新模型,我们将在今年内稳步推进前沿技术边界。"
负责领导超级智能团队的王仁勋(Alex Wang)在周三发布的一系列社交媒体帖子中坦承,"模型在行为表现上仍存在一些需要打磨的地方"。他表示,规模更大的版本正在开发中,Meta计划至少开源其中部分模型。
随着Muse Spark的发布,Meta也更加清晰地展示了其借助模型实现商业变现的路径——该公司在Meta AI聊天机器人中预告了嵌入式购物功能,可直接向用户推荐可购买的商品。
从宏观布局来看,Meta正押注于将AI应用于日常个人任务,以提升旗下社交媒体平台逾35亿用户的使用黏性,从而在用户覆盖范围不及自身的竞争对手中建立先发优势。
此外,Muse Spark还能帮助用户完成多种实用任务,例如通过拍照估算一餐的卡路里摄入量,或将马克杯的图像叠加到书架场景中以预览实际效果。
Muse Spark还搭载了一项名为"深思模式"(Contemplating Mode)的功能,可同时运行多个智能体以增强推理能力,从而与谷歌Gemini Deep Think和OpenAI GPT Pro的扩展思考模式形成竞争。Meta表示,用户可以利用该模式高效规划家庭出游——一个智能体负责起草旅行行程,另一个则同步查找适合儿童的活动项目。
Q&A
Q1:Muse Spark是Meta哪个团队开发的?和Llama有什么关系?
A:Muse Spark是Meta去年斥资组建的"超级智能"团队开发的首款模型,该团队内部将这一新系列代号为"Avocado"。它与Llama系列是不同的产品线——此前Meta的聊天机器人依托Llama模型运行,Muse Spark未来几周内将逐步取代Llama,成为WhatsApp、Instagram、Facebook及Meta智能眼镜上聊天机器人的核心驱动模型。
Q2:Muse Spark的性能表现如何?和GPT、Gemini比怎么样?
A:独立评测显示,Muse Spark在语言理解和视觉理解方面已接近谷歌、OpenAI、Anthropic的顶尖模型,但在代码生成和抽象推理上仍有差距。在评测机构Artificial Analysis的综合AI测试榜单中,Muse Spark目前并列第四位,尚未超越主要竞争对手,但Meta表示更大版本的模型正在研发中。
Q3:Muse Spark的"深思模式"是什么?有什么用?
A:"深思模式"(Contemplating Mode)是Muse Spark的一项增强推理功能,可同时运行多个智能体协同工作,以提升处理复杂任务的能力。该模式对标谷歌Gemini Deep Think和OpenAI GPT Pro的扩展思考功能。Meta举例称,用户可用此模式规划家庭旅行,一个智能体起草行程,另一个查找儿童友好活动,两者并行提升效率。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。