![]()
机器之心报道
编辑:+0、陈陈
刚刚,Transformers v5 发布首个 RC(候选) 版本 v5.0.0rc0。
![]()
GitHub:https://github.com/huggingface/transformers/releases/tag/v5.0.0rc0
这次更新标志着这一全球最流行的 AI 基础设施库,正式跨越了从 v4 到 v5 长达五年的技术周期。
作为 Hugging Face 最核心的开源项目,自 2020 年 11 月 v4 版本发布以来,Transformers 的日下载量已从当时的 2 万次激增至如今的超过300 万次,总安装量突破12 亿次
它定义了业界如何使用模型,支持的架构也从最初的 40 个扩展至超过400 个,涵盖了文本、视觉、音频及多模态领域,社区贡献的模型权重更是超过75 万个,涵盖了文本、视觉、音频及多模态领域。
官方表示,在人工智能领域,「重塑」是保持长盛不衰的关键。Transformers 作为生态系统中领先的模型定义库,需要不断演进并调整库的形态,以保持其相关性。
v5 版本将 PyTorch 确立为唯一核心后端,并聚焦于四大维度的进化:极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性,以及将量化提升为核心功能。
简洁性
团队的首要关注点是简洁性。
Hugging Face 希望模型的集成方式是干净、清晰的。简洁性能够带来更广泛的标准化、更强的通用性,以及更全面的生态支持。
新增模型
从本质上讲,Transformers 始终是一个模型架构工具箱。Hugging Face 目标是收录所有最新的模型架构,并成为模型定义的唯一可信来源。
在过去 5 年里,平均每周新增 1–3 个新模型,时间线如下图所示:

模块化方法
在过去一年里,Hugging Face 大力推进模块化设计。这种方式使维护更简单、集成速度更快,并能促进社区之间的协作。
![]()
尽管 Hugging Face 始终尊崇「一个模型,一个文件」的哲学,但他们仍在不断引入一些抽象层,以简化通用辅助函数的管理。这方面最典型的例子就是引入了 AttentionInterface,它为注意力机制提供了一个集中的抽象层。Eager 方法将保留在建模文件中;而其他方法,如 FA1/2/3 (FlashAttention)、FlexAttention 或 SDPA,则被移至该接口中。
模型转换工具
Hugging Face 也正在大力构建工具,以帮助识别某个新模型与现有模型架构之间的相似性。该功能通过机器学习来发现不同模型文件之间的代码相似度。
进一步来说,Hugging Face 希望自动化模型转换流程:当有新模型需要集成到 Transformers 中时,系统将自动创建一个草稿 PR(Pull Request),将其转换成符合 Transformers 格式的版本。
这一流程将减少大量手动工作,并确保整体的一致性。
代码精简
精简 Modeling & Tokenization/Processing 文件
Hugging Face 对建模文件和标注相关文件也进行了大规模重构。
得益于前文提到的模块化方法,加上对不同模型之间的统一标准化,建模文件得到了显著改善。标准化让许多不真正属于模型本体的工具都被抽象出去,使建模代码只保留模型前向 / 反向传播所需的核心部分。
与此同时,v5 也在简化 tokenization & processing 文件:未来将只关注 tokenizers 后端,并移除 Fast 和 Slow tokenizer 这两个概念。
图像处理器今后也将只保留 fast 版本,这些版本依赖 torchvision 作为后端。
最后,v5 将逐步停止对 Flax / TensorFlow 的支持,转而专注于 PyTorch 作为唯一后端;不过团队也在与 JAX 生态合作伙伴协作,以确保模型能够与该生态兼容。
PyTorch 基金会执行董事、Linux 基金会 AI 部总经理 Matt White 表示:随着 v5 版本的发布,Transformers 正全面转向 PyTorch。
训练
关于 v5 版本的训练仍然是团队工作的重点,之前 Hugging Face 专注于微调而不是大规模预训练以及完整训练,v5 加大了对后者的支持。
预训练
为了支持预训练,Hugging Face 重新设计了模型初始化方式,同时也加入了对前向与反向传播优化算子支持。目前,v5 已经与 torchtitan、megatron、nanotron 等工具实现了更广泛的兼容。
微调与后训练
Hugging Face 表示将继续与 Python 生态系统中的所有微调工具保持紧密合作。同时,Hugging Face 也在与 JAX 生态中的 MaxText 等工具兼容,以确保他们的框架与 Transformers 之间具备良好的互操作性。
现在,所有微调和后训练工具都可以依赖 Transformers 作为模型定义的来源;这也进一步可以通过 OpenEnv 或 Prime Environment Hub 来支持更多的 Agentic 使用场景。
推理
推理也是 v5 优化的重点方向之一,Hugging Face 带来了多项范式级的更新:包括专用内核、更干净的默认设置、新的 API,以及优化对推理引擎的支持。
此外,和训练阶段类似,Hugging Face 也投入了大量精力来封装推理内核。
在这项工作之外,他们还为推理新增了两个专用 API:
连续批处理和 paged attention 机制。这些功能已经在内部开始使用,之后会有使用指南放出。全新的 transformers serve 服务系统,可部署一个兼容 OpenAI API 的服务器,用于部署 Transformers 模型。
在 v5 的更新中,Hugging Face 明确强化了对推理场景的支持,尤其是像模型评估这类需要同时处理大量请求的任务。
值得注意的是,Transformers v5 的定位并不是取代 vLLM、SGLang、TensorRT-LLM 这样的专业推理引擎。相反,他们的目标是与这些引擎实现兼容。
生产环境
本地部署
团队与最流行的推理引擎紧密合作,从而能够将 Transformers 作为后端使用。这带来了显著的价值:只要某个模型被添加到 Transformers 中,它就会立即在这些推理引擎中可用,同时还能充分利用各引擎的优势,例如推理优化、专用内核、动态批处理等。
另外,Hugging Face 也在与 ONNXRuntime、llama.cpp 和 MLX 展开密切合作,以确保 Transformers 与这些建模库之间具有良好的互操作性。例如,得益于社区的大量努力,现在在 Transformers 中加载 GGUF 文件以进行进一步微调变得非常简单。反之,也可以轻松地将 Transformers 模型转换为 GGUF 文件,以便在 llama.cpp 中使用。
对于 MLX 而言也是如此,transformers 的 safetensors 文件可以直接兼容 MLX 的模型。
最后,Hugging Face 也在推动本地推理的边界,并与 executorch 团队紧密合作,让 Transformers 模型能够在设备端直接运行,对多模态模型(视觉、音频)的支持也在快速扩展中。
量化
量化正迅速成为当代前沿模型开发的标准,许多 SOTA 模型如今都以低精度格式发布,例如 8-bit 和 4-bit(如 gpt-oss、Kimi-K2、DeepSeek-R1)。
紧跟技术前沿,v5 将量化作为 Transformers 的核心能力之一,确保它能够与主要功能完全兼容,并为训练与推理提供一个可靠的量化框架。
参考链接:https://huggingface.co/blog/transformers-v5





京公网安备 11011402013531号