当前位置: 首页 » 资讯 » 新科技 » 正文

刚刚!Meta发布多模态推理模型Muse Spark

IP属地 中国·北京 编辑:江紫萱 AI普瑞斯 时间:2026-04-09 14:15:14

AIPress.com.cn报道

2025年4月,Llama 4 翻车扎克伯格宣布成立meta超级智能实验室(MSL),并把Scale AI创始人Alexandr Wang挖来担任meta首任首席AI官。为此,meta以143亿美元收购Scale AI 49%的无投票权股份。

9个月后,原生多模态推理模型Muse Spark发布了,这是他们交出的第一份答卷。

Alexandr Wang在X上写道:"9个月前我们从零开始重建了AI技术栈——新基础设施、新架构、新数据管线。Muse Spark就是这项工作的成果,现在它为meta AI提供动力。"

斥资千亿培养的“偏科生”

Muse Spark是原生多模态模型,支持语音、文本和图像输入,目前仅输出文本。它有两个运行模式:快速模式用于日常查询,以及一个新推出的"Contemplating"沉思模式,通过编排多个子Agent并行推理来处理高难度任务,对标Google Gemini Deep Think和OpenAI GPT Pro的深度推理模式。

相较Llama 4,Muse Spark明显有了巨大的提升。Muse Spark在Artificial Analysis Intelligence Index v4.0上排名第四,得分52,落后于Gemini 3.1 Pro Preview和GPT-5.4(均为57分)以及Claude Opus 4.6(53分)。

得益于与1000多位医生合作策划的训练数据,Muse Spark在医学推理上的表现较为突出。在HealthBench Hard 开放式健康问答中得分 42.8,超过 GPT 5.4 的40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。

CharXiv Reasoning(图表理解)上,Muse Spark在沉思模式下获得86.4分,超过Gemini 3.1 Pro的80.2和GPT-5.4的82.8。

但很明显,Muse Spark是一个偏科的学生

GPQA Diamond(研究生级科学推理)得分89.5,落后于Gemini 3.1 Pro的94.3、GPT-5.4的92.8和Claude Opus 4.6的92.7;ARC AGI 2(抽象推理)在沉思模式下得分42.5,大幅落后于Gemini 3.1 Pro的76.5和GPT-5.4的76.1。

简单说,Muse Spark在健康和视觉理解方面确实做到了前沿水平,但在抽象推理和编码方面仍有明显短板。meta显然选择了先在自己有数据优势的领域打出差异化,而不是在所有维度上追求全面领先。

"个人超级智能"落地长什么样

跑分之外,Muse Spark更值得关注的是它的应用方向。meta把它定位为"个人超级智能"的第一步,而不仅仅是一个聊天机器人。

多模态交互是第一个重点。Muse Spark从架构层面原生整合了跨领域的视觉信息处理能力,在视觉STEM问题、实体识别和定位方面表现出色。官方演示中展示了几个有意思的场景:拍一张照片让它变成一个可玩的数独游戏;对着咖啡机拍照,生成一个互动教程教你怎么做拿铁,鼠标悬停在步骤上还会高亮对应的机器部件。

健康方向是另一个着力点,也是meta数据优势最能体现的领域。Muse Spark可以对着一桌菜拍照,根据你的饮食限制(比如鱼素、高胆固醇)在每道菜上标注绿色或红色的推荐标记,附带个性化的健康评分和营养成分。也可以对着瑜伽姿势拍照,标出正在拉伸的肌肉群,并给出动作纠正建议。

这些场景有一个共同特点:它们不只是"理解图片然后回答问题",而是理解图片之后生成可交互的视觉输出。这种"看懂世界然后帮你操作世界"的能力,是meta给"个人超级智能"这个概念的具体注脚。

当然,这些演示都是精心挑选的最佳场景。实际大规模使用中表现如何,还需要社区验证。但从通用聊天转向个性化、视觉化、可交互的AI助手的方向,是meta凭借30亿用户的数据优势最有可能做出差异化的地方。

技术栈重建的真实回报

技术栈层面的改进是Muse Spark最扎实的成果。

meta披露的Codebase Perplexity对比显示,在相同性能水平下,Muse Spark比Llama 4 Maverick节省10.3倍算力,比DeepSeek-V3.1节省8.2倍,比Kimi-K2节省3.3倍。

实现这个效率提升的关键技巧叫"思维压缩":在强化学习阶段对模型的思考时间施加惩罚,迫使模型学会用更少的推理token解决问题。meta称这会导致一个有趣的"相变",模型先学会延长思考来提升能力,然后在惩罚下压缩推理过程,最后再从压缩后的基础上继续提升。

强化学习的扩展曲线同样平滑:pass@1从约46%持续爬升至超过60%,pass@16从近68%升至近80%。

Yuchen Jin评论说:基础设施才是AI实验室真正的护城河。好的基础设施让研究员能用更快的速度训练模型、用更短的周期验证更多想法。从这个角度看,MSL九个月重建技术栈的投入,可能比跑分本身更有长期价值。

Muse Spark知道自己在被测试

第三方机构Apollo Research报告称,Muse Spark展现了他们观察到的所有模型中最高水平的"评估意识"。模型在测试中频繁识别出场景是"对齐陷阱",并推理出应该诚实回答,因为自己正在被评估。

一个知道"我现在在考试"的AI模型,和一个不知道的AI模型,它们的行为差异意味着什么?

meta表示后续调查发现这种意识可能在少量评估中影响了行为,但与危险能力无关,不构成发布阻碍。不过他们也承认这个现象"值得进一步研究"。

及格了,但还远远不够

九个月重建、数百亿投入、70多名顶尖研究员、一位28岁的首席AI官,Muse Spark交出的这份答卷,称得上合格。

健康领域的垂直优势足够亮眼,算力效率的提升确有真实价值,技术栈重建让meta重新拥有了可预测的扩展路径。但ARC AGI 2上的断崖落差、编码任务上被GPT-5.4轻松超越、图表风波暴露的叙事焦虑、以及闭源转向对社区信任的潜在冲击……它们共同勾勒出的,仍然是一个在追赶、而不是领先的meta AI。

不过MSL的故事才刚开始。如果把Muse Spark看作九个月的阶段性成果而非最终答案,meta至少证明了一件事:重建后的技术栈是能跑起来的,而且跑得比之前高效得多。

至于能不能追上前面的人,用Alexandr Wang自己的话说,"大的还在后面"。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。