当前位置：首页 » 资讯 » 新科技 » 正文

「听觉」引导「视觉」，OmniAgent开启全模态主动感知新范式

IP属地中国·北京 机器之心Pro 时间：2026-01-08 18:19:47

针对端到端全模态大模型（OmniLLMs）在跨模态对齐和细粒度理解上的痛点，浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent，通过「思考 - 行动 - 观察 - 反思」闭环，实现了从被动响应到主动探询的范式转变。
在 Daily-Omni 等多个基准测试中，其准确率超越 Gemini 2.5-Flash 和 Qwen3-Omni 等开闭源模型。

论文地址：https://arxiv.org/pdf/2512.23646论文主页：https://kd-tao.github.io/OmniAgent发起实验室ENCODE LAB：https://westlake-encode-lab.github.io/

背景与痛点

端到端全模态模型虽然实现了视听统一，但往往受限于高昂的训练成本和困难的跨模态特征对齐，导致在细粒度跨模态理解上表现不佳；基于固定 Workflow 的智能体依赖人为设定僵化的流程，缺乏细粒度和灵活性，无法根据问题自主的进行规划与信息获取；Caption-based 视频智能体需要在分析问题之前，先针对整个视频构建帧 caption 数据库，随后基于视频字幕数据库来理解内容，但这种方法计算成本高，难以捕捉细节的跨模态信息。
相比之下，OmniAgent 引入了一种全新的主动感知推理范式。通过在迭代反思循环中策略性地调度视频与音频理解能力，该方法有效攻克了跨模态对齐的难题，从而实现了对视听内容的细粒度理解。
方法论

OmniAgent 摒弃了固定的工作流，采用了「思考 - 行动 - 观察 - 反思」闭环机制。
1.思考：OmniAgent 会根据问题进行分析，自主决定「听」还是「看」。
2.行动：根据计划，OmniAgent 会从构建的多模态工具中选取合适的工具进行调用：
事件工具：利用音频能够高效捕捉全局上下文的特性，首创音频引导事件定位，快速锁定关键时间窗口，避免对长视频进行无效的视觉扫描。视频工具：包含粗粒度的全局视频问答，以及在特定时间内基于更高帧率进行分析的片段问答工具。音频工具：涵盖音频全局描述、细粒度问答，以及支持精确时间戳的语音转录（ASR）。
3.观察与反思机制：智能体接受工具结果，评估目前已有的证据能否正确的回答问题，并且结合之前在多步推理中进行跨模态一致性检查，确保视听证据互证，解决幻觉与对齐问题。
效果如何？
OmniAgent 在三个主流视听理解基准测试中均取得了 SOTA 成绩，显著优于现有的开源及闭源模型：
1.Daily-Omni Benchmark：准确率达到 82.71%，超越 Gemini 2.5-Flash (72.7%) 和 Qwen3-Omni-30B (72.08%)，提升幅度超 10% 。

2.OmniVideoBench：在长视频理解任务中，准确率达 59.1%，大幅领先 Qwen3-Omni-30B (38.4%) 。

3.WorldSense:OmniAgent 也保持了领先的准确度。

未来愿景
OmniAgent 的设计理念有很高的扩展性，能够继续结合其他模态的工具；OmniAgent 能够帮助生成高质量的 COTT 数据，用来构建可以自我调用工具的下一代智能体全模态模型。
总的来看，OmniAgent 证明了在全模态理解任务中，音频引导的的主动感知策略是解决跨模态对齐困难、提升细粒度推理能力的有效路径。该工作为未来的全模态 Agent 算法设计提供了新的范式参考。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AI“踢”进世界杯：一场技术重塑足球的“零容错”实验

已有郑州市民收到电动车不戴头盔抓拍短信：首违不罚重在提醒

全球人形机器人去年出货量破万台，智元、宇树、优必选排前三

纯电续航超400公里工信部披露增程赛道将迎“重量级玩家”

大众设计总监操刀，ID.3改款确认回归实体按键

台积电营收超预期 2025年Q4营收预计同比增长20%

全站最新

AI“踢”进世界杯：一场技术重塑足球的“零容错”实验

已有郑州市民收到电动车不戴头盔抓拍短信：首违不罚重在提醒

全球人形机器人去年出货量破万台，智元、宇树、优必选排前三

纯电续航超400公里工信部披露增程赛道将迎“重量级玩家”

热门推荐

机票系统故障，海航多个航线出现超低价航班，最新公告：全部有效

AI“踢”进世界杯：一场技术重塑足球的“零容错”实验

已有郑州市民收到电动车不戴头盔抓拍短信：首违不罚重在提醒

全球人形机器人去年出货量破万台，智元、宇树、优必选排前三

纯电续航超400公里工信部披露增程赛道将迎“重量级玩家”

大众设计总监操刀，ID.3改款确认回归实体按键

新奥第二代高温超导模型线圈研制成功

台积电营收超预期 2025年Q4营收预计同比增长20%

《上海市“AI+制造”场景建设指南（第一期）》发布

清华AI找药登Science！一天筛选10万亿次，解决AlphaFold遗留难题

逛完CES 2026我绷不住了，AI产品一个比一个抽象，简直是华强北年度述职大会

浦发银行携手AGI领军者MiniMax，共赴人工智能新时代

简知科技获评双项广州市级AI案例荣誉，彰显“人工智能+教育”实力

避免老设备“变砖”，Bose开源SoundTouch智能音箱API

全球AGI产业迎来里程碑，智谱AI与MiniMax相继登陆资本市场