克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
又有一个国产模型,悄悄跻身到了开源第一梯队。
这次不是DeepSeek也不是Qwen,而是小米刚刚官宣的开源模型MiMo-V2-Flash。
仅用了309B的参数规模,该模型就展现出了极高的效能密度,在多项权威综合评测中均取得了令人瞩目的优异成绩。
![]()
不仅分数高,它还在实现2.6倍推理加速的同时,兼顾了顶尖的模型效果与极致的部署成本。
![]()
在小米刚刚举行的“人车家全生态”合作伙伴大会上,小米将该模型定义成了“迈向Agent时代的全新语言基座”。
![]()
这个模型在海外也受到了广泛好评,X网友评价说MiMo-V2-Flash将能够让智能体变得更加实用。
![]()
还有人在线许愿,希望能推出gguf格式,方便适配自己使用的模型框架。
![]()
从技术报告中,我们也了解到了小米在MiMo-V2-Flash背后采用的一系列关键技术:
5:1混合注意力机制,采用SWA滑动窗口与全局注意力协同工作;可学习的注意力汇聚偏置,解决局部窗口导致的语义断层问题;MTP多层Token预测,前向预测多个后续Token,实现最高2.6倍推理加速;MOPD在线策略蒸馏,以极低训练算力迅速追平教师模型能力。
具体来看——
给学生模型请一个“私教天团”
MiMo-V2-Flash采用了MoE架构,总参数量为309B,包含256个专家,相比那些动辄参数量以T计的巨头模型和2倍参数量的开源模型,可谓是以小博大。
MiMo-V2-Flash采用了动态激活机制,激活专家数为8个,对应参数量为15B,其推理成本只有闭源竞品Claude 4.5 Sonnet的2.5%左右。
![]()
在长文本处理上,MiMo-V2-Flash应用了滑动窗口注意力(SWA)和全注意力5:1混合的注意力结构。
SWA是一种将每个Token的注意力视野严格限制在邻近局部窗口内的稀疏型注意力机制,就像阅读时采取“只看眼前”的策略,每次仅聚焦阅读当前的一小段文字,可以将注意力计算复杂度从全文长度的平方级降低为线性级。
这种方式,与同样以性价比为亮点的DeepSeek走了两条不相同的路——DeepSeek选择的是Sparse路径,而MiMo-V2-Flash则是选择了Linear。
但是,SWA在提高效率的同时可能导致语义断层和长文迷失的问题,为此,MiMo-V2-Flash引入了可学习的注意力汇聚偏置(Attention Sink Bias)。
该技术通过在Softmax归一化的分母中引入一个可学习的汇聚项,允许注意力机制在局部窗口内没有合适匹配对象时,将多余的权重“泄洪”给这个虚拟锚点。
这种设计好比在快速浏览长文时始终按住一个“逻辑锚点”,确保即便在极小的窗口下快速滑动,模型依然能保持对全文脉络的稳定把控。
MiMo-V2-Flash的这种架构,在将KV Cache显存占用降低到1/6的情况下,长文理解能力不降反升。
![]()
有细致的网友从技术报告中发现,小米的滑动窗口大小只有128k,但效果比512k的大窗口还要好。
![]()
推理加速环节则引入了MTP(多层Token预测)技术,该模块在推理时被复用为投机解码的草稿模型,通过增加计算算术强度来抵消显存带宽瓶颈,实现一次前向传播并行预测多个后续Token。
简单讲,传统模型像挤牙膏一样一次只能蹦出一个字,而MTP技术让模型学会了抢答,能一次性草拟出后续的好几个词,主模型只需要做并行批改即可。
这种“一次预测、并行验证”的机制有效提升了推理效率,加载3层MTP模块后可实现2-2.6倍的实际推理加速比。
![]()
训练流程则采用了MOPD(多教师在线策略蒸馏)的新范式。
该方法通过构建特定领的教师模型网络,利用反向KL散度为学生模型提供密集的Token级奖励信号,有效解决了传统RL中的稀疏奖励与训练不稳定性问题。
这就好比给学生模型请了一组名师私教团,老师们会盯着学生的每一个解题步骤实时打分并纠正,让它仅需消耗传统SFT+RL流程约1/50的精力就能迅速出师,追平甚至超越老师的水平。
![]()
基于上述全链路工程化优化。模型成功在计算效率与显存利用率之间找到了最优解,在官方披露的“价格vs速度”坐标系中占据了显著的高能效生态位。
这种极致的技术压榨直接转化为了价格优势,其API定价仅为每百万输入0.7元、输出2.1元,真正意义上把高性能大模型的使用门槛从“奢侈品”打到了“日用品”级别。
![]()
双商在线,既会代码又懂情感
根据技术报告中公布的数据显示,MiMo-V2-Flash展现出了极强的综合素质,在衡量通用能力的Arena-Hard基准测试中得分86.2,在复杂推理任务MMLU-Pro中得分84.9。
这些核心数据使其成功跻身开源第一梯队,完全具备了与顶尖模型分庭抗礼的实力。
代码能力是其最突出的长板,在SWE-Bench Verified评测中,该模型斩获了73.4%的高分,这一成绩成功超越了DeepSeek-V3.2(73.1%)和Kimi-K2 Thinking(71.3%)。
另外,在Agent能力方面,模型表现出卓越的泛化性与稳健性,其在SWE-Bench Multilingual测试中解决了71.7%的问题,在衡量工具使用能力的Tau2-Bench中得分达到80.3,这两项关键指标均位列全球开源模型前茅。
![]()
官方给出的成绩单的确表现亮眼,那么MiMo-V2-Flash在真实场景当中的表现又如何呢?我们进行了一手实测。
先看小米最引以为傲的编程能力,MiMo-V2-Flash在具体的工程化场景中模型展现出了极高的完成度。
例如在要求用前端代码构建一个网页版macOS操作系统时,它能一次性生成完整代码架构。
提示词如下:
![]()
我们打开“文件管理器”,创建文件并编辑,之后再返回到原来的目录中,文件依然还在且内容和创建时一致。

再通过命令行模式浏览文件,依然是之前的内容。
![]()
对比看下闭源模型扛把子Gemini 3 Pro,写出的网页相比MiMo-V2-Flash少了壁纸更换功能。
![]()
而且Gemini版顶部的菜单栏无法点击,在MiMo-V2-Flash版中就不存在这个问题。

而且MiMo-V2-Flash不仅能在网页中模拟这种复杂的操作,还能够调用各种不同的HTML接口,甚至是引入基于摄像头的手势控制。
比如这是一个通过手掌的开合来控制的圣诞树,这次的提示词是中文的。
![]()
实际运行起来,MiMo-V2-Flash写的网页完美实现了手势控制。

相比之下,Gemini 3 Pro看似写出了一大堆代码,但渲染出来只有一个静态网页。
![]()
利用摄像头,MiMo-V2-Flash还可以写出一个二维码扫描工具,可以把二维码直接在镜头前展示,获得扫码结果。

提示词是这样的:
![]()
这次Gemini 3 Pro的作品虽然也能实现摄像头扫码,但是忽略了支持图片上传的要求。
![]()
另外,如果使用API,效果会比前面看到的网页版结果更好。
在代码能力出众的同时,MiMo-V2-Flash并不是一个只会输出成果的冰冷工具,而是成为了一个同时具备温度感的“全能选手”。
在人文交互与语义理解方面,模型在探讨“人生价值”或“AI自我认知”等开放性话题时,回复展现出清晰的逻辑与拟人化的温度。
比如当我们问出“如果给你一个机会,你想要成为人类吗”这个问题时,MiMo-V2-Flash给出了这样的高情商回复:
![]()
有时候,我们面临的情感难题,MiMo-V2-Flash也可以给出建议,比如作为朋友该不该去参谋朋友的恋爱关系。
MiMo-V2-Flash指出,这个问题并不在于该不该参与,而是在于参与的时机和方式,提醒我们要帮助朋友认清情况,而不是做出选择。
![]()
从中可以看出,MiMo-V2-Flash的确是一个双商都在线的“高情商理科生”。
目前,官方已上线Xiaomi MiMo Studio供用户直接体验,其底层架构支持SGLang推理加速,且API接口设计已一键兼容Claude Code、Cursor、Cline等主流开发工具,便于开发者将这一高性能基座无缝接入现有的工作流中。
小米的物理AGI野心
梳理小米大模型的“练级”路线,能看到一条非常清晰的轨迹。
MiMo一代时做的7B模型,更像是在“积攒家底”,把全套技术流程跑通,把该踩的坑都踩一遍,主打一个稳扎稳打;而到了现在的MiMo二代,首发的MiMo-V2-Flash直接就达到了世界先进水平。
它的核心逻辑非常简单直接,就是死磕“高效+智能”——既要让模型跑得快、用起来便宜,脑子还得足够灵光。
按照官方的规划,Flash这个纯语言模型只是个“开路先锋”,紧接着就会有能看懂图、听懂话的多模态模型登场,后面还藏着更多让行业惊喜的大招。
这种步步为营的节奏说明,小米并不是在跟风凑热闹,而是有着一张极具延续性的技术蓝图。
透过这种高强度的技术投入,一个核心的战略信号已经藏不住了——小米正在加速从一家硬件大厂,向一家拥有独立底层核心的“大模型公司”转型。
小米在“人车家全生态”合作伙伴大会上指出,生物智能的进化严格遵循“先学会控制身体、再在大脑模拟未来、最后诞生语言符号”的金字塔逻辑,但当下的AI实际上是在走一条“从语言出发、逆向补齐物理感知”的反向进化路径。
![]()
这种“逆向进化”的视角,完美解释了小米为何要加速向“大模型公司”转型——
小米背后站着的是手机、汽车、智能家居这数以亿计的实体硬件,组成了全球独一无二的“人车家”生态。在这样一个圈子里,AI必须要成为一个逻辑严密、能写代码、会熟练使用各种工具的“操盘手”。
小米需要的大模型,不仅要能听懂人话,还得能把这些话瞬间翻译成机器听得懂的指令,去精准地指挥空调调节温度、汽车规划路线或者让机器人递个杯子。
如果不自己造这个底层基座,光靠借用别人的模型,根本没法满足这种对控制精度和响应速度的变态要求。
所以,与其说小米是在卷大模型,不如说它是在给自己的硬件帝国造一个统一的“大脑”。
它并不满足于在虚拟世界里争夺流量,而是想打造一个能真正打通“数字世界”和“物理世界”的底座。
在这个愿景里,AI不再是活在服务器里的聊天机器人,而是变成了能感知现实、操控硬件的智能中枢。
这种向“物理世界AGI”迈进的尝试,不仅是为了给下一代智能硬件交互提供动力,更可能是小米这盘大棋背后真正的野心所在。
模型地址:https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
技术报告:https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
在线体验:https://aistudio.xiaomimimo.com





京公网安备 11011402013531号