当前位置: 首页 » 资讯 » 新科技 » 正文

无人关心的 Meta AI,好像真有点说法。

IP属地 中国·北京 差评XPIN 时间:2026-04-11 04:03:59


绕过元宇宙的弯路,放弃出道即巅峰的 Llama,怒烧几百亿美金组建超级智能实验室。。。

在 meta 的 AI 战略彻底颠覆以后,他们的首款通用模型 Muse Spark 耗时一年,终于崭新出炉了。

而在第一时间上手实测之后,世超感觉,之前的 meta 是拉完了都排不上号的主,靠着钞能力一路猛追,可能真爬上了榜单的人上人。

根据官方发布的跑分结果,Muse Spark 在多模态、文字推理、健康和智能体领域,和 Opus 4.6,Gemini 3.1 Pro 等旗舰模型相比的确各有千秋。


虽然这个健康领域挺诡异的,很少见这类 Benchmark 被搬上通用模型的台面。。。

而在即将推出的 “ 沉思模式 ” 下,Muse Spark 在一些高难测试集,如 Humanity's Last Exam 里的思考推理表现,也和 Gemini 3.1 Deep Think,GPT 5.4 Pro 差不多。


但也有人并不看好 meta 这一波。毕竟官方博客披露信息太少了,案例都没几个。模型闭源,又没有发布 API,meta 也有可能故技重施,在跑分上造假。这模型好不好用,难说。

所以,为了看看这里面到底有几分水分,世超把 Muse Spark 拉来,和 Gemini 3.1 pro,Opus 4.6,GPT 5.4 Thinking 做了个简单横向对比。

目前 Muse Spark 只开放了 Instant 和 Thinking 两种模式,前者快速回答,后者有一些思考和推理能力,我们这回主要测能力更强的 Thinking。


咱们先从 Muse Spark 主推的多模态开始。比如,世超给它一张超市货架图,让它推荐几款减脂期零食。

从回答里看得出,Muse Spark 对图片的理解能力很强,细节也能抓到位,文字阅读无障碍,推荐得有理有据,结果可靠。


但要只是上面这种程度,所有模型都能做得到,Muse Spark 只能算是及格。下面这些上难度的玩法,才是 Muse Spark 表演的开始。

在官方博客里,meta 提供了一个一张图变数独游戏的案例。只要给出一张图片,提示词 “ 把这张图变成网页数独游戏 ”,就能获得一个可玩数独。


我们也做了个类似的,亲测好用。不止交互很丝滑,答案也能准确计算好,页面风格和提供的图片完全一致。


感觉 Muse Spark 的多模态不像其它模型,只是识图看个大概,剩下的全凭自由发挥。它是真懂事,不仅能按照你提供的图片像素级复刻,甚至可以准确推断出背后的操作使用逻辑。

下面这个例子就更猛了。世超只是随手截了一个 win11 系统计算器图给它,提示 “ 把这张图片变成一个可用计算器 ”,Muse Spark 一口气做出来的 demo,每个按键都好使,计算准确,界面和系统妈生计算器一模一样。


作为对比,GPT 5.4 Thinking 界面风格类似,但有乱码;Gemini 3.1 pro 完全无视了原图;只有真神 Opus 4.6 维持了一贯的高水准。


而在据说 Muse Spark 并不擅长的代码方面,我们实测也有惊喜。

咱先试了试前端网页设计实现。至少在这一块,Muse Spark 的审美属于一流水平。

页面功能实现得比较完整,部分链接按钮可点击,虽然具体内容存在一些杜撰,粗略看起来还是很舒服的。


整体和 Opus 4.6 比起来有点差距,但比起不知所云的 GPT,还是强了很多。


算法代码方面,我们挑选了几道 leetcode 高难题。

最震惊的还是在 65 号题上,虽然所有模型都通过了测试,但 Muse Spark 给出了时间和空间上,都更加优雅的解法。。。

作为对比,Opus 4.6 和 GPT 5.4 Thinking 的时间复杂度排名仅 50%,而 Gemini 3.1 pro 的空间复杂度只击败了 13% 的提交答案。


再以 10 号题为例,Muse Spark 和 Opus 给出的依然是最优解;GPT 通过了测试,但解法不够好;Gemini 3.1 pro 则直接出现 bug,失败了。


测到这里,Muse Spark 的表现已经远远超过世超的预期了。表现和 Opus 打的有来有回,反而 GPT 和 Gemini 显得有点不够看。

不会吧不会吧,难道我们都误会了,亚历山大王真有点东西?

再看看简单的文字测试。不得不说,Muse Spark 思路相当清晰,Instant 模式回答几个经典逻辑问题足够用,3 秒必达。


而作为对比,Gemini 和 Opus 的表现也是稳定且准确。唯独 GPT,上个月新发布的版本 5.4 Thinking,还在这种简单逻辑题上翻车,拉完了。


最后,在健康领域,所有模型的回答都中规中矩,Muse Spark 无功无过。


在简单试用完一圈之后,世超感觉大模型界三足鼎立的局面,真要被打破了。

而 meta 目前放出来的,甚至还只是一个较轻量,试试水,可能在未来开源的版本。。。

官方表示,他们正在 Muse Spark 的基础上,继续对整个技术栈加大投资力度,从研究,数据,模型训练到基础设施,规模全面扩张。

在模型训练技术细节上,meta 提到了三个关键点:预训练、强化学习、和测试时推理(test-time reasoning)。


前两个过程各位差友已经很熟悉了,但即使这是每个大模型的必经之路,meta 依然背靠 Instagram 和 Facebook,有着得天独厚的数据优势。在数据这方面,可能只有谷歌能和 meta 相提并论。

而在测试时推理这个阶段,meta 主要做的是,让模型在回答问题之前,先思考一阵,但不能耗太多 token。

这一点世超在 GPT Thinking 系列上深有体会。这些模型经常想起来没完,结果变得又臭又长,信息密度极低。

而 meta 选择在训练的过程中,对过长的思考进行惩罚。把长推理压缩成尽量少 token 的前提下,又能让模型回答准确,达成了微妙的平衡。


最后,回过头看,一次又一次失败,meta 居然从来没退出这场比赛,最终再次归位前沿阵地,这故事太燃了。

但在另一边,Claude Mythos Preview 已经强到另一个维度了。相比之下,Muse Spark 这一波,像是才刚补上了之前缺的课。

所以,世超只能说,期待 meta 加入这场模型大乱斗,让小扎也有机会,瘫坐在小小的办公椅上吧。

撰文:莫莫莫甜甜

编辑:江江 & 面线

美编:焕妍

图片、资料

感谢宅宅老师提供的跨国支援!

莫莫实测

Muse Spark 官方博客、X


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。