当前位置：首页 » 资讯 » 新科技 » 正文

阿里两款千问语音新模型齐发：动物也能“原声”说人话了！

IP属地中国·北京 快科技 时间：2025-12-24 20:23:21

快科技12月24日消息，阿里今日升级语音模型家族Qwen3-TTS，发布音色创造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC两款全新模型。
在生成效果上，全新模型的表现显著超越GPT-4o。
Qwen3-TTS新模型可实现DIY声音设计和像素级音色模仿，甚至让动物"原生"开口说人话。
其音色自然、效果稳定、生成高效，可大大加速语音大模型在有声小说、AI漫剧、影视配音等多专业领域落地。
其中，音色创造模型支持通过自然语言描述生成定制化的音色形象，具有极强的可控生成能力。
在指令遵循评测InstructTTS-eval中，Qwen3-TTS综合表现显著优于GPT-4o-mini-tts、Mimo-audio-7b-instruct等同类模型。
在强调表达一致性与沉浸感的角色扮演测试中，模型整体效果超过Gemini-2.5-pro-preview-tts。

音色克隆模型则专注于"音色模仿"，仅需3秒的语音样本，即可精准复刻原始声线。
在MiniMax TTS Multilingual Test Set测试集中，Qwen3-TTS-VC显示出其在多语言语音准确性与稳定性方面的优势。
它的平均词错误率（WER）指标上表现突出，整体结果全面优于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview。

此外，Qwen3-TTS-VC 还可自动生成英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等9种语音。
值得注意的是，它连动物音色也能复刻，只需录入家中宠物的原始声音，就能用模型让它"开口说人话"。
目前，两款模型均在阿里云百炼平台上架Flash版本API，响应速度极快，可完全满足工业级语音合成需求。
千问语音生成模型系列Qwen3-TTS仍在不断升级，目前可支持50种音色，10大主流语言和闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等8大方言，可真实还原地方口音特色与语言神韵。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

小米VS华为！澎程新车对标问界，智界RX盯上小米YU7

出走米哈游1000多天后，蔡浩宇的AI远征“撞墙”

华为深圳场景化解决方案发布，破解“模型强、场景弱”难题

全站最新

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

三菱全新帕杰罗或9月2日发布，外观、动力等细节抢先看！

热门推荐

上半年新能源车注册量近半，现存新能源汽车相关企业近180万家

国产机器人产业加速出海，国内现存相关企业超115万家

国产机器人产业加速出海，国内现存相关企业超115万家

字节跳动Seedance 2.5发布：视频创作升级，支持30秒生成与多素材参考

2026年Q2全球智能手机出货量降6%：三星苹果领涨，小米等厂商承压

植物无大脑却能“对话”“预言”？重新认识地球生命信息网络中的它们

2026年7月手机圈大事件：苹果基带混用红米新机将至小米份额上升 OPPO新机万元起

消息称OPPO或推6.3-6.4英寸阔直屏新机预计与Ultra同档明年亮相

谷歌DeepMind再发力：新一代机器人AI模型攻克全身控制与灵巧操作难题

谷歌Gemini Robotics 2发布：单模型驱动全身自由度，开启机器人通用智能新篇

字节跳动Seedance 2.5发布：30秒生成高质量视频，优化连贯性还去“油腻感”

AI浪潮下企业变革：字节飞书调整，豆包成新增长引擎接棒前行

模型激战正酣，亚马逊云科技另辟蹊径率先收获AI商业硕果

字节跳动Seedance 2.5发布：视频时长延长至30秒，创作能力全面升级

B站运营“社区派”代表林航离职曾为即刻社区风格奠基人