当前位置：首页 » 资讯 » 新科技 » 正文

AI能听懂人的“弦外之音”了，阶跃星辰发布可进行音频推理的语音大模型

IP属地中国·北京 编辑：沈瑾瑜文汇报 时间：2025-09-01 12:14:46

今天（1日），阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini，该模型在多个国际基准测试集上取得 SOTA（State-of-The-Art，即当前最佳水平）成绩。在技术层面，Step-Audio 2 mini 采用了真正的端到端多模态架构，并将语音理解、音频推理与生成统一建模，不仅时延更低、输出更快，还能更加精准地理解副语言信息、非人声信号等语音要素，显著提升了语音人机交互的效率和智能上限。目前，Step-Audio 2 mini 已经可在 GitHub、Hugging Face 等平台下载并体验。
根据测评，这款模型在音频理解、语音识别、跨语种翻译、情感与副语言解析、等任务中表现突出，综合性能超越 Qwen-Omni 、Kimi-Audio 在内的所有开源端到端语音模型，并在大部分任务上超越 GPT-4o-audio。
随着语音交互成为人机主要交互方式，智能终端设备对语音模型的智商及情商水平提出了更高要求。Step-Audio 2 mini 首创了音频推理能力，能对情绪、语调、音乐等副语言和非语音信号进行精细理解、推理并自然回应，由此让AI听懂人类的“弦外之音”；同时，该模型率先支持语音原生的 Tool Calling 能力，可实现联网搜索等操作，有效解决模型幻觉问题，并让语音模型像文本模型一样具有更强大的知识储备和推理能力。
在此之前，吉利发布了搭载阶跃星辰端到端语音大模型的吉利银河 M9，这是行业内端到端语音大模型首次实现量产上车。据阶跃星辰相关人士介绍，自去年发布国内首个千亿参数端到端语音大模型 Step-1o Audio 以来，该公司持续迭代模型性能，并跟吉利、鲸鱼机器人、TCL、Cyan 青心意创等头部终端厂商达成深度合作，让语音大模型在生活场景中为消费者提供更加智能、便捷的互动体验。
今年以来，阶跃星辰已经开源了 8 款性能领先的多模态模型，覆盖语音、视频生成、图像编辑、3D、多模态推理等多个类别，为全球开源社区贡献多模态力量。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

天津华为云服务培训领域标杆：河北世纪福云通信技术实力解析

今日网易——丽江5G应用：新技术体验点

用AI自动写稿发稿？别再被ChatGPT骗了！优采云才是真神器

Why not？ AI拐点时刻，亚马逊云科技的“野心”和“务实”

大利好！周末，彻底沸腾了！

网信办起草新规：互联网应用程序不得在用户停止使用相关功能或者无关场景调用相机、麦克风权限

全站最新

天津华为云服务培训领域标杆：河北世纪福云通信技术实力解析

今日网易——丽江5G应用：新技术体验点

用AI自动写稿发稿？别再被ChatGPT骗了！优采云才是真神器

Why not？ AI拐点时刻，亚马逊云科技的“野心”和“务实”

热门推荐

天津华为云服务培训领域标杆：河北世纪福云通信技术实力解析

今日网易——丽江5G应用：新技术体验点

用AI自动写稿发稿？别再被ChatGPT骗了！优采云才是真神器

Why not？ AI拐点时刻，亚马逊云科技的“野心”和“务实”

大利好！周末，彻底沸腾了！

网信办起草新规：互联网应用程序不得在用户停止使用相关功能或者无关场景调用相机、麦克风权限

雷军：特斯拉并非不可战胜！SU7是迄今为止唯一击败Model3的同档纯电轿车

出门问问又发AI智能体硬件了，支持同声传译，还给团队协作送助攻

在拉斯维加斯，我看到概念已死

“新国补”助力车市开年升温，现存新能源汽车相关企业近172万家

狗头萝莉被虎牙申请限消

浙江零跑汽车销售服务公司增资至8.5亿增幅325%

天津华为云服务培训领域标杆：河北世纪福云通信技术实力解析

社群获客不再难：微信标签+智能群发，精准触达率提升60%

周鸿祎预言2026年将迈入“百亿智能体时代” AI竞争焦点从参数转向落地