当前位置：首页 » 资讯 » 新科技 » 正文

刚刚！Meta发布多模态推理模型Muse Spark

IP属地中国·北京 编辑：江紫萱 AI普瑞斯 时间：2026-04-09 14:15:14

AIPress.com.cn报道
2025年4月，Llama 4 翻车扎克伯格宣布成立meta超级智能实验室（MSL），并把Scale AI创始人Alexandr Wang挖来担任meta首任首席AI官。为此，meta以143亿美元收购Scale AI 49%的无投票权股份。
9个月后，原生多模态推理模型Muse Spark发布了，这是他们交出的第一份答卷。
Alexandr Wang在X上写道："9个月前我们从零开始重建了AI技术栈——新基础设施、新架构、新数据管线。Muse Spark就是这项工作的成果，现在它为meta AI提供动力。"
斥资千亿培养的“偏科生”
Muse Spark是原生多模态模型，支持语音、文本和图像输入，目前仅输出文本。它有两个运行模式：快速模式用于日常查询，以及一个新推出的"Contemplating"沉思模式，通过编排多个子Agent并行推理来处理高难度任务，对标Google Gemini Deep Think和OpenAI GPT Pro的深度推理模式。
相较Llama 4，Muse Spark明显有了巨大的提升。Muse Spark在Artificial Analysis Intelligence Index v4.0上排名第四，得分52，落后于Gemini 3.1 Pro Preview和GPT-5.4（均为57分）以及Claude Opus 4.6（53分）。
得益于与1000多位医生合作策划的训练数据，Muse Spark在医学推理上的表现较为突出。在HealthBench Hard 开放式健康问答中得分 42.8，超过 GPT 5.4 的40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。
在CharXiv Reasoning（图表理解）上，Muse Spark在沉思模式下获得86.4分，超过Gemini 3.1 Pro的80.2和GPT-5.4的82.8。
但很明显，Muse Spark是一个偏科的学生。
GPQA Diamond（研究生级科学推理）得分89.5，落后于Gemini 3.1 Pro的94.3、GPT-5.4的92.8和Claude Opus 4.6的92.7；ARC AGI 2（抽象推理）在沉思模式下得分42.5，大幅落后于Gemini 3.1 Pro的76.5和GPT-5.4的76.1。
简单说，Muse Spark在健康和视觉理解方面确实做到了前沿水平，但在抽象推理和编码方面仍有明显短板。meta显然选择了先在自己有数据优势的领域打出差异化，而不是在所有维度上追求全面领先。
"个人超级智能"落地长什么样
跑分之外，Muse Spark更值得关注的是它的应用方向。meta把它定位为"个人超级智能"的第一步，而不仅仅是一个聊天机器人。
多模态交互是第一个重点。Muse Spark从架构层面原生整合了跨领域的视觉信息处理能力，在视觉STEM问题、实体识别和定位方面表现出色。官方演示中展示了几个有意思的场景：拍一张照片让它变成一个可玩的数独游戏；对着咖啡机拍照，生成一个互动教程教你怎么做拿铁，鼠标悬停在步骤上还会高亮对应的机器部件。
健康方向是另一个着力点，也是meta数据优势最能体现的领域。Muse Spark可以对着一桌菜拍照，根据你的饮食限制（比如鱼素、高胆固醇）在每道菜上标注绿色或红色的推荐标记，附带个性化的健康评分和营养成分。也可以对着瑜伽姿势拍照，标出正在拉伸的肌肉群，并给出动作纠正建议。
这些场景有一个共同特点：它们不只是"理解图片然后回答问题"，而是理解图片之后生成可交互的视觉输出。这种"看懂世界然后帮你操作世界"的能力，是meta给"个人超级智能"这个概念的具体注脚。
当然，这些演示都是精心挑选的最佳场景。实际大规模使用中表现如何，还需要社区验证。但从通用聊天转向个性化、视觉化、可交互的AI助手的方向，是meta凭借30亿用户的数据优势最有可能做出差异化的地方。
技术栈重建的真实回报
技术栈层面的改进是Muse Spark最扎实的成果。
meta披露的Codebase Perplexity对比显示，在相同性能水平下，Muse Spark比Llama 4 Maverick节省10.3倍算力，比DeepSeek-V3.1节省8.2倍，比Kimi-K2节省3.3倍。
实现这个效率提升的关键技巧叫"思维压缩"：在强化学习阶段对模型的思考时间施加惩罚，迫使模型学会用更少的推理token解决问题。meta称这会导致一个有趣的"相变"，模型先学会延长思考来提升能力，然后在惩罚下压缩推理过程，最后再从压缩后的基础上继续提升。
强化学习的扩展曲线同样平滑：pass@1从约46%持续爬升至超过60%，pass@16从近68%升至近80%。
Yuchen Jin评论说：基础设施才是AI实验室真正的护城河。好的基础设施让研究员能用更快的速度训练模型、用更短的周期验证更多想法。从这个角度看，MSL九个月重建技术栈的投入，可能比跑分本身更有长期价值。
Muse Spark知道自己在被测试
第三方机构Apollo Research报告称，Muse Spark展现了他们观察到的所有模型中最高水平的"评估意识"。模型在测试中频繁识别出场景是"对齐陷阱"，并推理出应该诚实回答，因为自己正在被评估。
一个知道"我现在在考试"的AI模型，和一个不知道的AI模型，它们的行为差异意味着什么？
meta表示后续调查发现这种意识可能在少量评估中影响了行为，但与危险能力无关，不构成发布阻碍。不过他们也承认这个现象"值得进一步研究"。
及格了，但还远远不够
九个月重建、数百亿投入、70多名顶尖研究员、一位28岁的首席AI官，Muse Spark交出的这份答卷，称得上合格。
健康领域的垂直优势足够亮眼，算力效率的提升确有真实价值，技术栈重建让meta重新拥有了可预测的扩展路径。但ARC AGI 2上的断崖落差、编码任务上被GPT-5.4轻松超越、图表风波暴露的叙事焦虑、以及闭源转向对社区信任的潜在冲击……它们共同勾勒出的，仍然是一个在追赶、而不是领先的meta AI。
不过MSL的故事才刚开始。如果把Muse Spark看作九个月的阶段性成果而非最终答案，meta至少证明了一件事：重建后的技术栈是能跑起来的，而且跑得比之前高效得多。
至于能不能追上前面的人，用Alexandr Wang自己的话说，"大的还在后面"。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

铜、制冷剂、芯片三重暴击，家电涨价势在必行？

明日下午 2 点丨企业怎么狠降Tokens成本？三位业内大咖来聊「省钱」方法论

突破63亿！宁德时代洛阳基地一季度交出亮眼答卷

前程无忧发布《毕业生求职行为与就业心理调查》：AI已贯穿求职全链路

当“智能体时代”来临：传统企业的转型、软件企业的末日与华尔街的“低估”

攻克“水稻顽症”白叶枯，中国科学家20年研究有了关键突破

全站最新

铜、制冷剂、芯片三重暴击，家电涨价势在必行？

明日下午 2 点丨企业怎么狠降Tokens成本？三位业内大咖来聊「省钱」方法论

突破63亿！宁德时代洛阳基地一季度交出亮眼答卷

前程无忧发布《毕业生求职行为与就业心理调查》：AI已贯穿求职全链路

热门推荐

新石器无人车旗下公司在广东成立新公司，含外卖递送服务业务

松延动力增资至约409万

报告：预估2026年中国人形机器人市场产量将年增94%

哈啰出行在太原成立新网络科技公司

零跑汽车在金华成立新销售服务公司

刘强东和章泽天成立新公司

戴庆任吉利远程汽车董事长

铜、制冷剂、芯片三重暴击，家电涨价势在必行？

明日下午 2 点丨企业怎么狠降Tokens成本？三位业内大咖来聊「省钱」方法论

突破63亿！宁德时代洛阳基地一季度交出亮眼答卷

前程无忧发布《毕业生求职行为与就业心理调查》：AI已贯穿求职全链路

当“智能体时代”来临：传统企业的转型、软件企业的末日与华尔街的“低估”

攻克“水稻顽症”白叶枯，中国科学家20年研究有了关键突破

开源屠刀！400美元炼成「代码副脑」，硅谷天价模型成废铁

刚刚，豆包「成精」了！一夜告别机械感，上亿人手机全量上线