当前位置: 首页 » 资讯 » 新科技 » 正文

千问上线Qwen3.5-Omni 具备全模态感知与生成能力

IP属地 中国·北京 编辑:赵磊 凤凰网科技 时间:2026-03-31 04:05:27

3月30日,千问宣布上线Qwen3.5-Omni。Qwen3.5-Omni系列包含Plus、Flash、Light三种尺寸的Instruct版本,支持256k长上下文,模型支持超过10小时的音频输入及超过 400 秒的720P(1 FPS)音视频输入。Qwen3.5-Omni能够支持113种语种和方言的语音识别和36种语种和方言的语音生成,目前可通过Offline API和Realtime API进行体验。

据介绍,千问着重加强了Qwen3.5-Omni的交互能力。对比Qwen3-Omni ,Qwen3.5-Omni 在长上下文、多语言、音视频理解能力上都有明显提升,能够支持113种语种和方言的语音识别和36种语种和方言的语音生成,同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。配合 ARIA 技术,语音输出的稳定性和自然度也进一步改善。

Qwen3.5-Omni-Plus 在音频/音视频的理解、推理和交互任务上,共取得 215 项 SOTA 成绩,涵盖音视频、音频、语音识别、语音翻译等多个方向。其中,通用音频理解、推理、识别、翻译、对话全面超越 Gemini-3.1 Pro,音视频理解能力总体达到 Gemini-3.1 Pro 水平。同时,视觉和文本能力与同尺寸 Qwen3.5 模型持平。

标签: 能力 语音 音视频 语种 方言 对话 体验 音频 理解能力 视觉 尺寸 文本 模型 模态 音色 克隆 小时 真人 科技 凤凰网 上线 语义 语言 总体 持平 版本 水平 据介绍 全面 成绩 技术 稳定

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。