当前位置：首页 » 资讯 » 新科技 » 正文

苹果公布PCG技术：质量零妥协、AI语音生成提速40%

IP属地中国·北京 编辑：周琳 IT之家 时间：2026-02-03 12:38:49

IT之家 2 月 3 日消息，科技媒体 9to5Mac 今天（2 月 3 日）发布博文，报道称苹果公司携手特拉维夫大学，联合发表论文，提出名为“原则性粗粒度”（PCG）的语音生成新方法，从而解决 AI 文本转语音（TTS）技术的速度瓶颈。
IT之家援引博文介绍，在生成语音方面，目前行业主流采用“自回归模型”，采用“逐个预测”的方式，即基于已有的 tokens 来预测下一个。
然而，这种机制要求预测结果必须“精确匹配”预设的 tokens，导致模型经常拒绝实际上听感差异极小、完全可用的预测结果。这种过于严苛的验证标准，直接拖慢了整体的生成速度。
研究团队为了解决上述问题，提出了“原则性粗粒度”（Principled Coarse-Graining，简称 PCG）技术。该技术的核心逻辑在于“求同存异”：研究人员认为，不同的声学 token 往往能产生几乎相同的听觉效果。
因此，PCG 不再将每个声音视为完全独立的个体，而是建立了“声学相似组”。只要模型生成的预测 token 落在正确的“相似组”范围内，系统就会予以采纳。这种灵活的验证机制，本质上是将严苛的“单点验证”升级为了容错率更高的“范围验证”。
在具体运行中，PCG 引入了“投机解码”策略，构建了一套双模型协作架构。首先，由一个轻量级的小模型快速“猜测”并提出候选语音 token；随后，由一个参数更大的“裁判模型”进行审核。
只要候选 token 属于正确的声学组，大模型便会“放行”。这种分工不仅保留了小模型的高速度，也利用大模型保障了输出质量，有效平衡了效率与准确性。
试验数据显示，应用 PCG 技术后，语音生成速度提升了约 40%，且并未牺牲音频质量。在自然度评分（满分 5 分）中，该模型取得了 4.09 的高分。
在一项极限压力测试中，研究人员将 91.4% 的语音 token 替换为同组的其他 token，结果显示词错率仅增加了 0.007，说话人相似度仅下降 0.027，人耳几乎无法察觉差异。
PCG 属于“推理阶段”的优化方案，意味着无需对现有模型进行耗时耗力的重新训练即可直接应用。此外，存储声学相似组仅需约 37MB 的额外内存。

标签：技术模型语音速度机制质量 准确性 苹果公司 大学 求同存异 科技解码范围错率无法阶段消息策略系统 结果显示 差异方案媒体投机逻辑核心团队苹果耗时 高速度 耗力

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用