英伟达开源9B参数Nemotron-2模型,混合架构实现6倍推理速度提升。
由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba …
08/20 10:25
08/20 10:24
08/20 10:23
08/20 10:22