据报道,苹果提出“多token预测”(MTP)技术,在不牺牲输出质量的情况下,可将大语言模型响应速度提升2至3倍,特定场景下最高可达5倍。传统大语言模型逐个输出token,速度受限。苹果研究发现模型内部蕴含对后续多个词的潜在判断能力,据此提出MTP框架,支持模型一次生成多个词。该技术通过“掩码”token作为占位符,并行推测后续多个词,并在推测结果与标准自回归解码结果不符时自动回退,确保输出质量。实验基于开源模型Tulu3 - 8B进行,训练其最多推测8个后续token,在问答和对话等通用任务中,响应速度平均提升2至3倍;在代码生成、数学推理等结构化场景中,提速可达5倍。
苹果MTP技术:大语言模型响应速度最高提升5倍
IP属地 中国·北京 编辑:钟景轩 三言科技 时间:2025-08-09 12:19:13
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 奔驰电动车有起火风险!车主称召回后续航缩水 只剩280公里
- 当 AI 开始分「左右」
- 我国科学家开创中性原子量子计算新架构,单原子寻址保真度达99.66%
- 逆势而行?Valve新款Steam Machine官宣,8GB显存配置引发争议
- 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
- AI视频泛滥成灾!平台管控难,消费者鉴别能力日益重要?
- 福特总裁:美国制造业人才短缺,如果战争来临谷歌造不出飞机大炮
- AI时代,人如何保持精神的独立与高贵
- 俄宇航员在太空使用生物识别技术在线办理业务
- 2026年手机屏幕影像电池全面升级,苹果三星华为将推大折叠手机
- 王自如神操作!改个手机设置,就能消灭各种APP弹窗广告?
- 库克被曝最早明年让位CEO,“苹果AI已落后同行2年”
- 2025 XIN峰会开幕 展示人工智能硬件生态及前沿科技
- Dexmal原力灵机两轮融资金额近10亿元 阿里与蔚来资本分别领投
- ChatGPT爱用破折号是病,奥特曼刚宣布已经治好了





京公网安备 11011402013531号