字节跳动Seed团队宣布推出实验性扩散语言模型Seed Diffusion Preview,标志着在语言模型领域的一次重大技术突破。该模型旨在通过结构化的代码生成实验,验证离散扩散技术路线作为下一代语言模型基础框架的可行性。Seed Diffusion Preview在推理速度上取得了显著提升,达到每秒2146个tokens,相比同等规模的自回归模型提升了5.4倍,同时在多个代码生成基准测试中表现出与自回归模型相当的性能。
Seed Diffusion Preview的发布,旨在解决自回归(AR)模型在推理速度和全局控制方面的局限性。扩散模型通过从粗到精的生成范式,在图像和视频合成等连续数据领域取得了显著成功。然而,将扩散模型应用于自然语言等离散领域面临根本性挑战,主要在于标准扩散过程与离散状态空间的不兼容性。尽管如此,离散扩散模型在可扩展性和效果上已展现出巨大潜力。
为应对这些挑战,Seed Diffusion Preview采用了四项关键技术创新:两阶段课程学习、约束顺序扩散、同策略学习以及块级并行扩散采样方案。两阶段课程学习策略包括基于掩码的扩散训练和基于编辑的扩散训练,旨在提升模型的局部上下文补全能力和全局代码合理性评估能力。约束顺序扩散通过引入代码的结构化先验,引导模型掌握正确的依赖关系。同策略学习通过优化生成步数,提升模型的推理速度。块级并行扩散采样方案则在保持因果顺序的同时,实现了高效的块级推理。
实验结果显示,Seed Diffusion Preview在代码推理速度上达到了2146tokens/s,相比同等规模的自回归模型提升了5.4倍。这一速度提升并未以牺牲质量为代价,模型在多个业界基准上的性能与优秀的自回归模型相当,并在代码编辑等任务上实现了超越。这一成果不仅证明了离散扩散模型在推理加速方面的潜力,还展示了其在复杂推理任务中的应用前景。
项目页面:https://seed.bytedance.com/seed_diffusion
体验链接:https://studio.seed.ai/exp/seed_diffusion