当前位置: 首页 » 资讯 » 新科技 » 正文

千问上线Qwen3.5-Omni 具备全模态感知与生成能力

IP属地 中国·北京 编辑:孙明 凤凰网科技 时间:2026-03-30 22:36:43

3月30日,千问宣布上线Qwen3.5-Omni。Qwen3.5-Omni系列包含Plus、Flash、Light三种尺寸的Instruct版本,支持256k长上下文,模型支持超过10小时的音频输入及超过 400 秒的720P(1 FPS)音视频输入。Qwen3.5-Omni能够支持113种语种和方言的语音识别和36种语种和方言的语音生成,目前可通过Offline API和Realtime API进行体验。

据介绍,千问着重加强了Qwen3.5-Omni的交互能力。对比Qwen3-Omni ,Qwen3.5-Omni 在长上下文、多语言、音视频理解能力上都有明显提升,能够支持113种语种和方言的语音识别和36种语种和方言的语音生成,同时新增了语义打断、音色克隆、语音控制等实时交互能力,让对话体验更接近真人。配合 ARIA 技术,语音输出的稳定性和自然度也进一步改善。

Qwen3.5-Omni-Plus 在音频/音视频的理解、推理和交互任务上,共取得 215 项 SOTA 成绩,涵盖音视频、音频、语音识别、语音翻译等多个方向。其中,通用音频理解、推理、识别、翻译、对话全面超越 Gemini-3.1 Pro,音视频理解能力总体达到 Gemini-3.1 Pro 水平。同时,视觉和文本能力与同尺寸 Qwen3.5 模型持平。

标签: 语音 音频 语种 语音识别 qwen 方言 音视频 gemini

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。