![]()
绕过元宇宙的弯路,放弃出道即巅峰的 Llama,怒烧几百亿美金组建超级智能实验室。。。
在 meta 的 AI 战略彻底颠覆以后,他们的首款通用模型 Muse Spark 耗时一年,终于崭新出炉了。
而在第一时间上手实测之后,世超感觉,之前的 meta 是拉完了都排不上号的主,靠着钞能力一路猛追,可能真爬上了榜单的人上人。
根据官方发布的跑分结果,Muse Spark 在多模态、文字推理、健康和智能体领域,和 Opus 4.6,Gemini 3.1 Pro 等旗舰模型相比的确各有千秋。
![]()
虽然这个健康领域挺诡异的,很少见这类 Benchmark 被搬上通用模型的台面。。。
而在即将推出的 “ 沉思模式 ” 下,Muse Spark 在一些高难测试集,如 Humanity's Last Exam 里的思考推理表现,也和 Gemini 3.1 Deep Think,GPT 5.4 Pro 差不多。
![]()
但也有人并不看好 meta 这一波。毕竟官方博客披露信息太少了,案例都没几个。模型闭源,又没有发布 API,meta 也有可能故技重施,在跑分上造假。这模型好不好用,难说。
所以,为了看看这里面到底有几分水分,世超把 Muse Spark 拉来,和 Gemini 3.1 pro,Opus 4.6,GPT 5.4 Thinking 做了个简单横向对比。
目前 Muse Spark 只开放了 Instant 和 Thinking 两种模式,前者快速回答,后者有一些思考和推理能力,我们这回主要测能力更强的 Thinking。
![]()
咱们先从 Muse Spark 主推的多模态开始。比如,世超给它一张超市货架图,让它推荐几款减脂期零食。
从回答里看得出,Muse Spark 对图片的理解能力很强,细节也能抓到位,文字阅读无障碍,推荐得有理有据,结果可靠。
![]()
但要只是上面这种程度,所有模型都能做得到,Muse Spark 只能算是及格。下面这些上难度的玩法,才是 Muse Spark 表演的开始。
在官方博客里,meta 提供了一个一张图变数独游戏的案例。只要给出一张图片,提示词 “ 把这张图变成网页数独游戏 ”,就能获得一个可玩数独。
![]()
我们也做了个类似的,亲测好用。不止交互很丝滑,答案也能准确计算好,页面风格和提供的图片完全一致。
![]()
感觉 Muse Spark 的多模态不像其它模型,只是识图看个大概,剩下的全凭自由发挥。它是真懂事,不仅能按照你提供的图片像素级复刻,甚至可以准确推断出背后的操作使用逻辑。
下面这个例子就更猛了。世超只是随手截了一个 win11 系统计算器图给它,提示 “ 把这张图片变成一个可用计算器 ”,Muse Spark 一口气做出来的 demo,每个按键都好使,计算准确,界面和系统妈生计算器一模一样。
![]()
作为对比,GPT 5.4 Thinking 界面风格类似,但有乱码;Gemini 3.1 pro 完全无视了原图;只有真神 Opus 4.6 维持了一贯的高水准。
![]()
而在据说 Muse Spark 并不擅长的代码方面,我们实测也有惊喜。
咱先试了试前端网页设计实现。至少在这一块,Muse Spark 的审美属于一流水平。
页面功能实现得比较完整,部分链接按钮可点击,虽然具体内容存在一些杜撰,粗略看起来还是很舒服的。
![]()
整体和 Opus 4.6 比起来有点差距,但比起不知所云的 GPT,还是强了很多。
![]()
算法代码方面,我们挑选了几道 leetcode 高难题。
最震惊的还是在 65 号题上,虽然所有模型都通过了测试,但 Muse Spark 给出了时间和空间上,都更加优雅的解法。。。
作为对比,Opus 4.6 和 GPT 5.4 Thinking 的时间复杂度排名仅 50%,而 Gemini 3.1 pro 的空间复杂度只击败了 13% 的提交答案。
![]()
再以 10 号题为例,Muse Spark 和 Opus 给出的依然是最优解;GPT 通过了测试,但解法不够好;Gemini 3.1 pro 则直接出现 bug,失败了。
![]()
测到这里,Muse Spark 的表现已经远远超过世超的预期了。表现和 Opus 打的有来有回,反而 GPT 和 Gemini 显得有点不够看。
不会吧不会吧,难道我们都误会了,亚历山大王真有点东西?
再看看简单的文字测试。不得不说,Muse Spark 思路相当清晰,Instant 模式回答几个经典逻辑问题足够用,3 秒必达。
![]()
而作为对比,Gemini 和 Opus 的表现也是稳定且准确。唯独 GPT,上个月新发布的版本 5.4 Thinking,还在这种简单逻辑题上翻车,拉完了。
![]()
最后,在健康领域,所有模型的回答都中规中矩,Muse Spark 无功无过。
![]()
在简单试用完一圈之后,世超感觉大模型界三足鼎立的局面,真要被打破了。
而 meta 目前放出来的,甚至还只是一个较轻量,试试水,可能在未来开源的版本。。。
官方表示,他们正在 Muse Spark 的基础上,继续对整个技术栈加大投资力度,从研究,数据,模型训练到基础设施,规模全面扩张。
在模型训练技术细节上,meta 提到了三个关键点:预训练、强化学习、和测试时推理(test-time reasoning)。
![]()
前两个过程各位差友已经很熟悉了,但即使这是每个大模型的必经之路,meta 依然背靠 Instagram 和 Facebook,有着得天独厚的数据优势。在数据这方面,可能只有谷歌能和 meta 相提并论。
而在测试时推理这个阶段,meta 主要做的是,让模型在回答问题之前,先思考一阵,但不能耗太多 token。
这一点世超在 GPT Thinking 系列上深有体会。这些模型经常想起来没完,结果变得又臭又长,信息密度极低。
而 meta 选择在训练的过程中,对过长的思考进行惩罚。把长推理压缩成尽量少 token 的前提下,又能让模型回答准确,达成了微妙的平衡。
![]()
最后,回过头看,一次又一次失败,meta 居然从来没退出这场比赛,最终再次归位前沿阵地,这故事太燃了。
但在另一边,Claude Mythos Preview 已经强到另一个维度了。相比之下,Muse Spark 这一波,像是才刚补上了之前缺的课。
所以,世超只能说,期待 meta 加入这场模型大乱斗,让小扎也有机会,瘫坐在小小的办公椅上吧。
撰文:莫莫莫甜甜
编辑:江江 & 面线
美编:焕妍
图片、资料
感谢宅宅老师提供的跨国支援!
莫莫实测
Muse Spark 官方博客、X
![]()





京公网安备 11011402013531号