当前位置: 首页 » 资讯 » 新科技 » 正文

提速128倍:苹果发布FS-DFM模型,AI长文写作不再等待

IP属地 中国·北京 编辑:郑浩 IT之家 时间:2025-10-15 09:54:27

IT之家 10 月 14 日消息,科技媒体 9to5Mac 今天(10 月 14 日)发布博文,报道称苹果提出 FS-DFM 扩散模型,仅需 8 轮快速迭代,即可生成与传统模型上千轮迭代质量相媲美的文本,且写入速度比同类模型最多可提高 128 倍。

苹果公司与俄亥俄州立大学的研究团队近期联合发表论文,提出一种名为“少步离散流匹配”(Few-Step Discrete Flow-Matching,简称 FS-DFM)的新型语言模型。

该模型专注于解决长文本生成领域的效率瓶颈,仅需 8 轮快速精练,就能生成高质量的长篇文本,其效果足以媲美传统扩散模型执行上千步迭代所实现的效果。

在深入了解 FS-DFM 之前,需要区分两种主流的语言模型范式:

以 ChatGPT 为代表的自回归模型,其工作方式是逐字(Token)串行生成文本,后一个字的生成依赖于前面所有内容。

扩散模型则采用并行策略,一次性生成多个字,再通过多轮迭代逐步优化,直至形成完整的回应。

FS-DFM 作为扩散模型的一个变体,进一步简化了迭代过程,旨在用最少的步骤直接生成最终结果。IT之家援引博文介绍,苹果研究人员为实现这一突破,设计了一套精妙的三步法:

首先,模型经过专门训练,能够灵活适应不同的精炼迭代次数。

其次,团队引入一个“教师”模型进行引导,确保模型在每轮迭代中都能进行大幅且精准的更新,同时避免出现“矫枉过正”的问题。

最后,他们还优化了迭代机制本身,让模型能以更少、更稳健的步骤生成最终文本。

在性能评估中,FS-DFM 还支持对比了拥有 70 亿参数的 Dream 模型和 80 亿参数的 LLaDA 模型。测试结果显示,即使是参数量仅为 1.7 亿至 17 亿的 FS-DFM 变体,在困惑度(衡量文本准确与流畅性的指标,越低越好)和熵(衡量模型选词置信度的指标。熵太低,生成的文本可能单调重复;熵太高,则可能胡言乱语)两项关键数据上,都表现出更低的困惑度和更稳定的熵。

标签: 模型 文本 团队 语言 苹果 州立大学 俄亥俄 领域 效率 科技 胡言乱语 问题 消息 数据 速度 矫枉过正 媒体 关键 博文 传统 选词 置信度 指标 步骤 长文 苹果公司 瓶颈 教师 效果 质量

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。