这次技术突破的直接结果相当明确:Engram-27B在多个任务上全面超越同规模纯MoE模型,扩展到40B规模后,大部分任务性能还在持续提升,训练后期损失仍在下降,说明记忆容量还有很大提升空间。以往大家都在追…
11/24 16:08
11/24 16:07
10/31 16:58
10/31 16:56