当前位置：首页 » 资讯 » 新科技 » 正文

英伟达发布TiDAR：单步生成多个Token，吞吐量提升近600%

IP属地中国·北京 IT之家 时间：2025-12-02 16:25:03

IT之家 12 月 2 日消息，科技媒体 Tom's Hardware 今天（12 月 2 日）发布博文，报道称英伟达在最新论文中，详述名为 TiDAR 的新型 AI 解码方法，巧妙融合了自回归（Autoregressive）与扩散（Diffusion）两种模型机制，利用 GPU 的“空闲槽位”加速文本生成。
自回归（Autoregressive）是一种生成方式，AI 必须根据上一个字才能猜出下一个字，像接龙一样，只能按顺序一个接一个生成。
扩散（Diffusion）常用于 AI 绘画的技术，通过逐步去除噪点来生成内容，在 TiDAR 中，它被用来一次性“猜”出好几个可能的词，供后续筛选。
IT之家援引博文介绍，当前的语言模型通常一次生成一个 Token（词元），这种逐个生成的机制导致了极高的计算成本和延迟。
TiDAR 的核心理念在于利用模型推理过程中未被使用的“空闲槽位”，在不牺牲生成质量的前提下，通过单步生成多个 Token 来大幅提升响应速度并降低 GPU 运行时长。
在技术原理方面，TiDAR 创新性地训练单个 Transformer 模型同时执行两项任务：标准的自回归“下一词预测”和基于扩散的“并行起草”。
不同于以往依赖独立草稿模型的投机解码（Speculative Decoding），TiDAR 通过结构化的注意力掩码（Attention Mask）将输入分为三个区域：前缀区、验证区和起草区。

投机解码是一种加速技术，先用一个小模型快速草拟一段话，再由大模型进行检查和修正。TiDAR 试图在同一个模型内完成这两步。
这种设计让模型在利用扩散头并行起草新 Token 的同时，还能通过自回归头验证这些草稿，最关键的是，它确保了 KV 缓存（KV Cache）的结构有效性，解决了早期扩散解码器面临的部署难题。

研究团队基于 Qwen 系列模型进行了测试。在 Humaneval 和 GSM8K 等基准测试中，TiDAR 的准确率与基准模型持平甚至略有提升。
在速度方面，15 亿参数版本的 TiDAR 模型实现了 4.71 倍的吞吐量增长；而 80 亿参数版本的表现更为抢眼，吞吐量达到了 Qwen3-8B 基准的 5.91 倍。这表明在当前测试规模下，TiDAR 能有效利用 GPU 的显存带宽，在不增加额外显存搬运的情况下生成更多 Token。
该媒体指出尽管实验数据亮眼，TiDAR 目前仍面临规模扩展的挑战。论文中的测试仅限于 80 亿参数以下的中小模型，且未涉及定制化的内核级优化（如 fused kernels），仅使用了标准的 PyTorch 环境。
随着模型参数量和上下文窗口的扩大，计算密度可能会饱和，从而压缩“多 Token 扩展”的成本优势。研究人员表示，未来将在更大规模的模型上进行验证，以确定该技术是否能成为云端大规模 AI 部署的实用替代方案。
参考

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

周云杰谈雷军邀请去小米参观

足不出户“养龙虾” ？京东携手联想百应推出OpenClaw远程部署服务

锚定全球智算节点，抢抓AI产业赛点

凤凰新媒体发布2025年四季度财报

国家互联网应急中心提示“龙虾”风险

OpenAI为龙虾紧急收购了一家23人公司

全站最新

周云杰谈雷军邀请去小米参观

足不出户“养龙虾” ？京东携手联想百应推出OpenClaw远程部署服务

锚定全球智算节点，抢抓AI产业赛点

凤凰新媒体发布2025年四季度财报

热门推荐

周云杰谈雷军邀请去小米参观

足不出户“养龙虾” ？京东携手联想百应推出OpenClaw远程部署服务

马斯克推进“超级应用”愿景：X数字支付系统下月开启早期测试

地表最强大模型，竟然不会从1数到10？掰手指这件事为何难倒AI

两会申音 | AI时代教育何为？

锚定全球智算节点，抢抓AI产业赛点

凤凰新媒体发布2025年四季度财报

国家互联网应急中心提示“龙虾”风险

OpenAI为龙虾紧急收购了一家23人公司

周鸿祎提醒“养龙虾”风险：AI幻觉或致C盘文件全被删

全国人大代表科大讯飞刘庆峰：推动AI惠及民生

杭州、南京等多地区争相出台“养龙虾”政策，支持OpenClaw&OPC-STC发展

你买的全新iPhone，屏幕可能早被人偷偷换走了？

第一个把双腔空悬干到20万内的，竟然是丰田？

会员增长乏力东方甄选“选B”