机器之心报道
编辑:Panda
今天是 xAI 的大日子,伊隆・马斯克早早就宣布了会在今天发布 Grok 4 大模型,AI 社区的眼球也已经向其聚拢,就等着看他的直播(等了挺久)。当然,考虑到 Grok 这些天的「失控」表现,自然也有不少人是在等着看笑话。
尽管如此,谷歌似乎也并不在意被夺走的目光,接连对 Gemma 系列模型进行了更新。
首先,谷歌发布了一系列用于健康 AI 开发的多模态模型MedGemma,其中包含 4B 和 27B 两个大小的几个不同模型:MedGemma 4B Multimodal、MedGemma 27B Text 和 MedGemma 27B Multimodal。
该系列模型能够根据医疗图像和文本描述辅助诊断并提供医疗建议,整体表现也是相当不错。
Hugging Face:https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4
而本文的重点并不是它,而是谷歌今天发布的编码器-解码器架构的 Gemma 系列模型:T5Gemma
从名字也能看出来,这个 Gemma 系列模型与 T5(The Text-to-Text Transfer Transformer)模型关系密切。而 T5 模型实际上就是编码器-解码器(encoder-decoder)架构的模型,并不同于目前主流的仅解码器(decoder-only)架构。
当然,虽然仅解码器架构是目前 LLM 的主流,但实际上,编码器-解码器凭借高推理效率、设计灵活性以及更丰富的编码器表征,在某些实际任务中其实非常好用,比如摘要、翻译、问答等。
似乎正因为此,谷歌一直没有放弃编码器-解码器架构,T5Gemma 便是其最新成果。
具体来说,T5Gemma 使用了一种名为「适应(adaptation)」的技术来将已经完成预训练的仅解码器模型转换为编码器 - 解码器架构。
T5Gemma 基于 Gemma 2 框架,包含经过适应的 Gemma 2 2B 和 9B 模型,以及一组全新训练的 T5 尺寸模型(Small、base、Large 和 XL)。另外还包含预训练和指令微调模型的多种变体版本。此外,T5Gemma 还提供了多种大小的编码器与解码器配置。不仅如此,谷歌还发布了使用 PrefixLM 或 UL2 这两个不同目标训练的模型。
总的算下来,谷歌这一次就发布了32个不同的 T5Gemma 模型。
Hugging Face:https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86Kaggle:https://www.kaggle.com/models/google/t5gemma
虽然热度远不及 Grok 4,但 T5Gemma 依然备受好评:
有人更是认为它是「LLM 时代编码器-解码器模型的强势回归」。
不过也有人吐嘈模型太多,让人不知道怎么选。
从仅解码器到编码器-解码器
对于 T5Gemma,谷歌研究的问题是:能否基于经过预训练的仅解码器模型构建顶级编码器-解码器模型?
谷歌为此探索了上述的适应技术,其核心思想是使用已预训练的仅解码器模型的权重来初始化编码器-解码器模型的参数,然后通过基于 UL2 或 PrefixLM 的预训练进一步调整这些参数。
方法概况,展示了如何使用经过预训练的仅解码器模型的参数初始化新的编码器-解码器模型。
这种适应方法高度灵活,并且支持组合不同大小的模型。例如,可以将大型编码器与小型解码器(例如,9B 编码器与 2B 解码器)配对,创建一个「不平衡」模型。
如此一来,便可以针对具体任务权衡地选择质量与效率,比如在摘要任务中,对输入的深度理解比生成输出的复杂性更为重要。
实际上,谷歌已经在今年 4 月份发布了关于适应技术的论文
论文标题:Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation论文地址:https://arxiv.org/pdf/2504.06225
T5Gemma 的表现如何?
在谷歌的实验中,T5Gemma 模型的性能与仅解码器的 Gemma 模型相当,甚至更胜一筹,在多个基准测试(例如用于衡量所学习到的表征质量的 SuperGLUE)中,T5Gemma 几乎主导了质量-推理效率的帕累托边界。
在给定的推理计算水平下,编码器-解码器模型始终能提供更佳性能,并且在一系列基准测试中引领质量-效率边界。
这种性能优势并非仅限于理论层面,它也能转化为实际的质量和速度。在测量在 GSM8K(数学推理任务)上的实际延迟时,T5Gemma 取得了显著优势。
例如,T5Gemma 9B-9B 的准确度高于 Gemma 2 9B,但延迟时间相似。更惊人是,T5Gemma 9B-2B 的准确度显著高于 2B-2B 模型,但其延迟时间几乎与规模小得多的 Gemma 2 2B 模型相同。
总体而言,这些实验表明,编码器-解码器适应确实是一种灵活而强大的方法,可以更好地平衡质量和推理速度。
编码器-解码器模型能否获得与仅解码器模型类似的能力?
谷歌的答案是:可以!
T5Gemma 在指令微调前后都表现优良。
经过预训练后,T5Gemma 在需要推理的复杂任务上取得了亮眼的进步。
例如,T5Gemma 9B-9B 在 GSM8K 上的得分比 Gemma 2 9B 模型高出 9 分以上,在 DROP(阅读理解任务)上的得分比 Gemma 2 9B 模型高出 4 分。这表明,通过适应初始化的编码器 - 解码器架构有潜力创建更强大、性能更佳的基础模型。
经过微调的 T5Gemma 模型在多个推理密集型基准测试上相比仅解码器的 Gemma 2 取得了显著提升。
这些预训练带来的基础性改进奠定了基础,支撑起指令微调后更显著的提升。
例如,如果对比 Gemma 2 IT 与 T5Gemma IT,可以看到性能差距全面显著扩大。T5Gemma 2B-2B IT 的 MMLU 得分比 Gemma 2 2B 提高了近 12 分,其 GSM8K 得分也从 58.0% 提升至 70.7%。看起来,经过适应后的架构不仅可能提供更好的起点,而且还能更有效地响应指令微调。最终构建出一个功能更强大、更实用的最终模型。
经过微调 + RLHF 后的模型的详细结果,表明后训练可以显著提升编码器-解码器架构的性能。
你认为 T5Gemma 能带来编码器-解码器模型的复兴吗?
https://developers.googleblog.com/en/t5gemma/
https://x.com/googleaidevs/status/1942977474339496208
https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/