当前位置: 首页 » 资讯 » 新科技 » 正文

浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版

IP属地 北京 编辑:吴婷 IT之家 时间:2024-08-23 12:11:55

8 月 23 日消息,浪潮信息今日发布源 2.0-M32 大模型 4bit 和 8bit 量化版,性能号称“比肩 700 亿参数的 LLaMA3 开源大模型”。

4bit 量化版推理运行显存仅需 23.27GB,处理每 token 所需算力约为 1.9 GFLOPs,算力消耗仅为同等当量大模型 LLaMA3-70B 的 1/80。而 LLaMA3-70B 运行显存为 160GB,所需算力为 140GFLOPs。

据浪潮信息介绍,源 2.0-M32 量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,将原模型精度量化至 int4 和 int8 级别,并保持模型性能基本不变

源 2.0-M32 大模型是浪潮信息“源 2.0”系列大模型的最新版本,构建包含 32 个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为 37 亿。

评测结果显示,源 2.0-M32 量化版在 MATH(数学竞赛)、ARC-C(科学推理)任务中,性能超过了700 亿参数的 LLaMA3 大模型。

源 2.0-M32 量化版已开源,附下载链接如下:

Hugging Face 平台下载链接

modelscope 平台下载链接

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新