当前位置：首页 » 资讯 » 新科技 » 正文

小米发布全模态基座模型Xiaomi MiMo-V2-Omni：支持多模态感知、工具调用等

IP属地中国·北京 编辑：吴婷凤凰网科技 时间：2026-03-19 08:11:44

3月19日，小米发布面向Agent时代的全模态基座模型Xiaomi MiMo-V2-Omni。该模型从底层构建融合文本、视觉、语音的全模态架构，将感知与行动深度绑定，原生支持多模态感知、工具调用、函数执行及GUI操作能力。
在正式发布前，小米将一个早期测试版本以“Healer Alpha”为代号匿名上架OpenRouter。上线期间调用量持续攀升，在OpenClaw测评榜单PinchBench上取得均分第一。
据官方介绍，MiMo-V2-Omni在音频理解方面支持环境声分类、多说话人分离、音频-视觉联合推理及超10小时长音频理解，综合表现超越Gemini 3 Pro。图像理解方面，在多学科视觉推理与复杂图表分析任务中超越Claude Opus 4.6，逼近Gemini 3 Pro等闭源模型水平。视频理解方面支持原生音视频联合输入，具备情境感知与未来推理能力。
智能体能力方面，该模型可在与真实数字环境交互的评测基准上比肩Gemini 3 Pro。在Browser Use场景中，结合OpenClaw框架可实现浏览器操控，完成信息检索、比价、与客服交互及下单等任务。与金山办公合作，接入WPS Office后，模型可根据指令生成Word文档、结构化Excel、排版规范的PDF及PPT。
MiMo-V2-Omni已开放API服务，支持256K上下文长度，输入0.4元/百万tokens，输出2元/百万tokens。小米联合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等五大Agent开发框架团队，为全球开发者提供为期一周的限时免费接口支持。

标签：模态模型方面基座工具小米任务均分环境视觉能力原生音频框架团队全球视频 结构化 语音比价 信息检索 客服水平文档 浏览器 下单金山办公文本 开发者 榜单官方

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

闯进「龙虾」时代，飞书与钉钉零时差

Palantir手握OpenAI与Anthropic都想要的核心能力

全球AI热潮下成本激增百度智能云4月起上调部分产品价格5%-30%

AI搜索优化领域选青岛海瑞诚传媒，专业深耕AI大模型优化，助力企业提升搜索效能

百度智能云、阿里云上调算力及存储价格，最高涨幅超三成

全站最新

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

闯进「龙虾」时代，飞书与钉钉零时差

Palantir手握OpenAI与Anthropic都想要的核心能力

全球AI热潮下成本激增百度智能云4月起上调部分产品价格5%-30%

热门推荐

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

闯进「龙虾」时代，飞书与钉钉零时差

Palantir手握OpenAI与Anthropic都想要的核心能力

全球AI热潮下成本激增百度智能云4月起上调部分产品价格5%-30%

AI搜索优化领域选青岛海瑞诚传媒，专业深耕AI大模型优化，助力企业提升搜索效能

百度智能云、阿里云上调算力及存储价格，最高涨幅超三成

阿里推出企业级Agent平台“悟空”，接入钉钉服务超2000万组织

14亿人的生活要变样了！腾讯回应打造微信AI智能体：联通小程序社交支付合作方可受益

上海约150+顶尖大脑，开源了他们的“未来认知”！有些爆点出人意料

脑机接口电极的“三重门”

兆瓦闪充剑指“油电同速” 充电与换电迎来分钟级对决

“算”风云变幻助防灾减害

“超级科研合伙人”启迪更多原始创新

历史研究装上“智能导航系统”

模仿龙虾眼睛造卫星（弘扬科学家精神）