当前位置: 首页 » 资讯 » 新科技 » 正文

Meta发布Muse Spark模型:性能有提升,但距大模型第一梯队仍有差距

IP属地 中国·北京 编辑:江紫萱 ITBEAR 时间:2026-04-09 23:35:56

meta Platforms旗下超级智能实验室(MSL)正式推出多模态推理模型Muse Spark系列,并同步上线首款产品。这款被meta称为“史上最强模型”的闭源系统,支持工具调用、视觉思维链及多智能体协作,主打多模态感知与推理能力。MSL负责人汪滔透露,团队在九个月内重构了AI系统框架与算力基础设施,彻底摒弃了过往技术路径。消息公布当日,meta股价上涨6.5%,收于612.42美元。

与开源的Llama系列不同,Muse Spark目前仅通过网站和meta AI应用提供服务,API接口仅向少数企业开放预览版。汪滔表示,后续版本“计划开源”,但未明确时间表。在效率方面,该模型通过架构优化与数据清洗,算力需求较Llama 4 Maverick降低90%以上,同时保持同等性能水平。

基准测试显示,Muse Spark在多模态理解领域表现突出。在CharXiv Reasoning测试中,其思考模式得分86.4,超越GPT-5.4(82.8)和Gemini 3.1 Pro High(80.2),但在其他多模态任务中落后于Gemini 3.1 Pro High。智能体能力方面,该模型在DeepSearchQA测试中以74.8分领先Gemini 3.1(69.7)和GPT-5.4(73.6),编程能力指标SWE-Bench Verified则接近Claude Opus 4.6等竞品。

Muse Spark的“沉思模式”通过多智能体并行推理提升性能。在“人类终极考试”中取得58.4%的准确率,略低于GPT-5.4 Pro的58.7%;在“前沿科学研究”测试中以38.3%超越GPT-5.4 Pro的36.7%。第三方平台Artificial Analysis的综合排名显示,该模型位列第四,前三名分别为谷歌Gemini 3.1 Pro、OpenAI GPT-5.4和Claude Opus 4.6。

独立评测机构Vals AI认为,meta从Llama 4到Muse Spark实现了技术跃迁,但编程能力仍是明显短板。该机构CEO雷恩·克里希南指出,若meta能保持当前研发速度,有望在短期内推出行业领先模型。这一观点与meta的转型战略形成呼应——2025年4月,Llama 4因“刷榜”争议陷入舆论风波,公司随后承认针对基准测试进行优化。

meta的AI战略调整始于2025年6月。当时,公司以143亿美元收购数据标注企业Scale AI 49%股份,并任命其创始人汪滔领导MSL。扎克伯格在内部信中宣布,整合基础研究、产品团队及FAIR实验室,目标是在2026年推出行业先进大模型,并构建服务个人的超级智能体。为吸引人才,扎克伯格亲自参与招聘,甚至在私人住宅接待研究人员,开出高达1亿美元的薪资条件。

人员快速扩张引发内部摩擦。2025年10月,meta被曝裁减600个AI团队职位,多名早期员工离职,其中部分为主动跳槽。同年年底,首席AI科学家杨立昆宣布离职,这一变动被视为meta彻底转向主流大语言模型路线的标志。杨立昆此前长期主张基于视频训练的世界模型,认为当前大语言模型无法实现通用人工智能。

资本市场对meta的激进投入反应积极。公司预计2026年资本开支将翻倍至1150亿-1350亿美元,主要用于AI基础设施建设。扎克伯格在财报电话会议中表示,首批模型的意义在于展示技术发展轨迹,随着迭代推进,meta将逐步逼近行业前沿。

竞争格局方面,Anthropic于4月7日发布Claude Mythos Preview,宣称该模型可自主发现并利用操作系统与浏览器漏洞,在真实漏洞利用测试中准确率显著提升。市场传言OpenAI计划在4月推出GPT-6,而DeepSeek于同日更新对话界面,新增“快速模式”与“专家模式”,被解读为V4版本上线的前兆。大模型赛道在2026年呈现白热化态势,meta虽凭借Muse Spark重返第一梯队,但全面领先仍需突破多重挑战。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。