据报道,苹果提出“多token预测”(MTP)技术,在不牺牲输出质量的情况下,可将大语言模型响应速度提升2至3倍,特定场景下最高可达5倍。传统大语言模型逐个输出token,速度受限。苹果研究发现模型内部蕴含对后续多个词的潜在判断能力,据此提出MTP框架,支持模型一次生成多个词。该技术通过“掩码”token作为占位符,并行推测后续多个词,并在推测结果与标准自回归解码结果不符时自动回退,确保输出质量。实验基于开源模型Tulu3 - 8B进行,训练其最多推测8个后续token,在问答和对话等通用任务中,响应速度平均提升2至3倍;在代码生成、数学推理等结构化场景中,提速可达5倍。
苹果MTP技术:大语言模型响应速度最高提升5倍
IP属地 中国·北京 编辑:钟景轩 三言科技 时间:2025-08-09 12:19:13
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 百果园不需要教育消费者
- 广州项目被中铁建接手,蓝绿双城代建进入中场战事
- 北京最贵超市、日均销售百万,国内首家有机健康超市AW“真面目”如何?
- 探路者连始祖鸟的汤都没喝到
- 不敢配货了,爱马仕开始偷偷降价
- 不敢配货了,爱马仕开始偷偷降价
- 小钢炮4.0视觉模型MiniCPM-V 4.0,手机端应用更流畅
- 人工智能助力医疗影像分析,减轻放射科医师负担
- 红魔10S Pro《斗战胜佛》典藏版8月15日预售,国补到手价5499元
- 广汽集团三款智能机器人亮相2025世界机器人大会 计划2027年启动大规模量产
- 蔚来乐道高管发起挑战!
- 中创新航、广汽高域签署eVTOL领域战略合作协议
- 港股苹果概念股拉升 比亚迪电子涨超4%
- 英伟达再回应H20芯片“后门”风险
- 完蛋,我在北京被机器人人人人人人人人人人给包围了