当前位置: 首页 » 资讯 » 科技探索 » 正文

256bps!卫星物联网极低码率语音压缩算法V3.0发布!

IP属地 北京 编辑:柳晴雪 钒星物联网 时间:2025-06-06 19:00:57

在当今信息化时代,语音通信技术的进步对应急救援、卫星通信等领域的发展至关重要。在卫星通信领域,窄带宽(甚低码率500bps以下)和远距离传输等技术限制一直是亟待攻克的行业难题。

作为国内领先的北斗应用技术企业 ,磐钴智能依托国家第二代北斗重大专项的应用推广与产业化,与中山大学CPNT Lab(北斗综合智能导航团队)展开深度合作,成功研发出具有自主知识产权的低码率语音压缩算法,并获得国家专利授权。如今,这一算法已升级至3.0版本,为北斗语音通信带来了革命性的突破。

此次升级以256bps为突破口,在提升语音传输效率、保障语音质量方面取得了重大突破,为卫星物联网通信带来了颠覆性的解决方案。

一、技术升级亮点

(一)极低码率下的高清语音保障

传统声码器在0.6kbps噪声环境下,语音质量会显著下降,MOS评分常低于2.8,难以满足实际需求。而低码率语音压缩算法融合中山大学技术研究成果,采用基于VQ-VAE与Transformer的端到端声码器,技术优势明显

1、高效压缩

通过残差矢量量化(RVQ),对语音信号进行分层量化,精准提取关键特征。再结合因果Transformer序列预测模型,利用自回归特性,深入挖掘语音帧间的依赖关系,实现从1000bps到256bps的压缩,压缩比低至24.8%,极大减少了传输数据量

2、卓越音质

在低至256bps的码率下,仍能保持DNSMOS评分大于2.8,主观音质可懂度完全达标。即便是在带宽极度受限的情况下,也能为用户呈现清晰、可理解的语音内容。

3、技术原理剖析

(1)VQ-VAE架构

构建分层量化体系,灵活支持256-2000bps的多码率输出。特别是在0.5kbps以下的编码场景中,打破传统技术瓶颈,实现高效编码。

(2)Transformer序列预测

借助Transformer强大的序列建模能力,对语音帧序列进行预测。搭配二进制编码,实现二次压缩,在保证音质的同时,进一步降低码率。

(二)复杂环境下的抗噪黑科技

在真实场景中,语音极易受到混响、嘈杂噪声干扰,如餐厅内的人声鼎沸、地铁中的轰鸣等。算法的低成本语音去噪技术,实现了双重技术突破。

1、频域RNNOISE模型

创新采用GRU网络取代传统噪声估计方式,大幅降低计算量,满足实时处理需求。不过,该方式可能会对音质造成轻微损伤。

2、时频域DPCRN模型

融合双路径RNN与卷积网络,通过复数频谱掩码滤波技术,在有效抑制噪声的同时,最大程度保留语音细节。经测试,该技术可使声码器在含噪环境下的平均DNSMOS评分从2.1提升至2.8(256bps码率),语音清晰度提升超40%

(三)去噪实测,话音清晰

在数据集中进行测试,运用该去噪技术后,语音可懂度显著提升。原本被噪声掩盖的话语变得清晰可闻,背景噪声得到有效抑制,声音纯净度大幅提高。

(四)端到端部署与跨平台适配

强大的技术落地能力是该算法的核心竞争力之一。磐钴智能的方案支持ONNX格式模型部署,可轻松适配C++等轻量化环境。在龙芯CPU等嵌入式国产设备上,也能实现实时编码解码,实时因子RTF小于1。并且,该技术高度兼容北斗短报文、天通卫星等窄带信道,已成功应用于多个关键领域。

1、应急通信设备

在野外救援、远洋船舶等场景中,通过低码率语音,实现实时语音回传。即便码率低至256bps,语音依然清晰可辨,为应急指挥提供有力支持。

2、智能物联网终端

采用低功耗设计,完美适配卫星物联网传感器。在延长设备续航时间的同时,保障通信质量,推动物联网设备高效运行。

二、技术优势对比

三、行业应用场景

(一)卫星应急指挥

在地震、山区等极端环境下,传统通信手段常常失效。此时,低码率语音技术优势尽显,能以低码率快速传递关键指令。比如在地震救援现场,救援人员可通过相关设备,利用低码率语音将废墟下的情况、救援进展等信息及时反馈给指挥中心,解决了传统通信“听不清、传不出”的痛点,为救援行动争取宝贵时间。

(二)远洋监控与科考

船舶在远洋航行时,需要实时汇报航行状态。运用该算法,可将语音数据压缩后传输,数据量减少25%。这不仅节省了卫星通信成本,还提升了传输效率。例如,科考船在执行任务过程中,能通过低码率语音清晰汇报科考数据、海上情况等,保障远洋作业顺利进行。

(三)智慧安防与野外监测

将算法嵌入低功耗设备,可实现长续航语音采集与回传。在森林防火场景中,分布在林区的设备可实时采集声音信息,一旦监测到异常声响,如火灾引发的树木爆裂声、人为活动噪声等,能通过低码率语音快速回传至监控中心,助力及时发现火情。在边境监控方面,也能有效监测人员活动,保障边境安全。

四、研发历程

低码率语音压缩算法研发之路始于对国家重大需求的积极响应。在国家第二代北斗重大专项的引领下,磐钴智能携手中山大学CPNT Lab,汇聚了一批通信与语音处理领域的精英人才。

研发团队深知低码率语音压缩对于特殊通信环境(如偏僻地区、应急救援通信等)的深远意义,在项目初期便明确了以提升语音压缩效率、保障语音质量为核心目标的研发方向。

1、2021年

磐钴智能联合中山大学CPNT Lab启动“北斗语音压缩算法”专项研究,瞄准国家重大需求。

2、2022年

国内外首次成功研发低码率语音压缩算法,在使用北斗三号五级卡(1750字节)情况下,它能实现最长31秒的语音传输。

3、2023年

低码率语音压缩算法正式获得国家发明专利授权

4、2024年

低码率语音压缩算法升级到2.0版本,算法在使用北斗三号五级卡(1750字节)的情况下,最长传输56秒的语音。

5、2025年

算法迭代至3.0版本,在2022年核心专利基础上形成专利族。实现从1000bps到256bps的压缩,仍能保持DNSMOS评分大于2.8,极大地提高了语音传输的效率和清晰度。这意味着在相同的带宽条件下,搭载了该算法的终端能够传输更长、更清晰的语音信息。

1.0、2.0版本的低码率语音压缩算法相继诞生,并在实际应用中取得显著成效,为北斗语音通信等领域提供了坚实的技术支撑。

如今,算法3.0版本的发布,是站在前序成果的肩膀上,针对行业更高标准和特殊场景需求所实现的一次质的飞跃。它再次印证了国家重大专项的支撑作用,让这一技术成果在国家战略布局中持续发挥价值。

每一次的算法升级,都是对行业标准的重新定义与提升。虽然一直被模仿,但磐钴智能很乐意因为自己的贡献而提高了行业整体服务水平。正如北斗系统推动全球卫星导航产业升级,我们乐见更多企业参与低码率语音压缩技术的普及。

未来,磐钴智能将继续秉承创新精神,加大研发投入,不断探索低码率语音压缩算法的更多可能性。我们将融合前沿的扩散模型(Diffusion Model)与多模态特征编码技术,正在向更低码率(150bps以下)发起挑战。同时,不断优化跨语言、多场景适配能力,致力于为全球卫星物联网通信提供具有中国智慧的“中国方案”,引领行业技术发展潮流。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。