当前位置: 首页 » 资讯 » 新科技 » 正文

小米发布全模态基座模型Xiaomi MiMo-V2-Omni:支持多模态感知、工具调用等

IP属地 中国·北京 编辑:吴婷 凤凰网科技 时间:2026-03-19 08:11:44

3月19日,小米发布面向Agent时代的全模态基座模型Xiaomi MiMo-V2-Omni。该模型从底层构建融合文本、视觉、语音的全模态架构,将感知与行动深度绑定,原生支持多模态感知、工具调用、函数执行及GUI操作能力。

在正式发布前,小米将一个早期测试版本以“Healer Alpha”为代号匿名上架OpenRouter。上线期间调用量持续攀升,在OpenClaw测评榜单PinchBench上取得均分第一。

据官方介绍,MiMo-V2-Omni在音频理解方面支持环境声分类、多说话人分离、音频-视觉联合推理及超10小时长音频理解,综合表现超越Gemini 3 Pro。图像理解方面,在多学科视觉推理与复杂图表分析任务中超越Claude Opus 4.6,逼近Gemini 3 Pro等闭源模型水平。视频理解方面支持原生音视频联合输入,具备情境感知与未来推理能力。

智能体能力方面,该模型可在与真实数字环境交互的评测基准上比肩Gemini 3 Pro。在Browser Use场景中,结合OpenClaw框架可实现浏览器操控,完成信息检索、比价、与客服交互及下单等任务。与金山办公合作,接入WPS Office后,模型可根据指令生成Word文档、结构化Excel、排版规范的PDF及PPT。

MiMo-V2-Omni已开放API服务,支持256K上下文长度,输入0.4元/百万tokens,输出2元/百万tokens。小米联合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等五大Agent开发框架团队,为全球开发者提供为期一周的限时免费接口支持。

标签: 模态 模型 方面 基座 工具 小米 任务 均分 环境 视觉 能力 原生 音频 框架 团队 全球 视频 结构化 语音 比价 信息检索 客服 水平 文档 浏览器 下单 金山 办公 文本 开发者 榜单 官方

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。