当前位置：首页 » 资讯 » 新科技 » 正文

4050亿参数！Meta或将7月23日发布迄今最强大Llama 3模型

IP属地中国·北京 编辑：孙明博客中国 时间：2024-07-14 11:11:34

来源：硬AI
不到两周后，我们可能就会见到迄今为止最强大的开源Llama 3模型。
美东时间7月12日周五，媒体援引一名meta Platforms的员工消息称，meta计划7月23日发布旗下第三代大语言模型（LLM）Llama 3的最大版本。这一最新版模型将拥有4050亿参数，也将是多模态模型，这意味着它将能够理解和生成图像和文本。该媒体未透露这一最强版本是否开源。
meta公司拒绝对上述消息置评。周五盘中，低开的meta股价跌幅收窄，盘初曾跌3.6%，此后跌幅曾收窄到不足2%，但尾盘跌幅扩大，收跌2.7%，在周四大幅回落超4%后连跌两日，刷新6月21日以来收盘低位。

去年7月meta发布的Llama 2有三个版本，最大版本70B的参数规模为700亿。今年4月，meta发布Llama 3meta，称它为“迄今为止能力最强的开源LLM”。当时推出的Llama 3有8B和70B两个版本。
meta CEO扎克伯格当时称，大版本的Llama 3将有超过4000亿参数。meta并未透露会不会将4000亿参数规模的Llama 3开源，当时它还在接受训练。
对比前代，Llama 3有了质的飞跃。Llama 2使用2万亿个 token进行训练，而训练Llama 3大版本的token超过15 万亿。
meta称，由于预训练和训练后的改进，其预训练和指令调优的模型是目前8B和70B两个参数规模的最佳模型。在训练后程序得到改进后，模型的错误拒绝率（FRR）大幅下降，一致性提高，模型响应的多样性增加。在推理、代码生成和指令跟踪等功能方面，Llama 3相比Llama 2有极大改进，使Llama 3更易于操控。
4月meta展示，8B和70B版本的Llama 3指令调优模型在大规模多任务语言理解数据集（MMLU）、研究生水平专家推理（GPQA）、数学评测集（GSM8K）、编程多语言测试（Humaneval）等方面的测评得分都高于Mistral、谷歌的Gemma和Gemini和Anthropic的Claude 3。8B和70B版本的预训练Llama 3多种性能测评优于Mistral、Gemma、Gemini和Mixtral。
当时社交媒体的网友评论称，根据基准测试，当前的Llama 3模型不完全是 GPT-4 级别的，但仍在训练中的较大尺寸的模型将达到 GPT-4 级别。

英伟达高级科学家Jim Fan认为，Llama 3的推出已经脱离了技术层面的进步，更是开源模型与顶尖闭源模型可分庭抗礼的象征。
从Jim Fan分享的基准测试可以看出，Llama 3 400B 的实力几乎媲美 Claude“超大杯”以及新版 GPT-4 Turbo，将成为“分水岭”，相信它将释放巨大的研究潜力，推动整个生态系统的发展，开源社区或将能用上GPT-4级别的模型。
此后有消息称，研究人员尚未开始对Llama 3进行微调，还未决定Llama 3是否将是多模态模型；正式版的Llama 3将会在今年7月正式推出。
不同于OpenAI等开发商，meta致力于开源LLM，不过，这个赛道也越来越拥挤。谷歌、特斯拉CEO马斯克旗下的xAI和Mistral 等竞争对手也发布了免费的AI模型。
Llama 3问世后，同在4月亮相的4800亿参数模型Arctic击败Llama 3、Mixtra，刷新了全球最大开源模型的纪录。
Arctic基于全新的Dense-MoE架构设计，由一个10B的稠密Tranformer模型和128×3.66B的MoE MLP组成，并在3.5万亿个token上进行了训练。相比Llama 3 8B和Llama 2 70B，Arctic所用的训练计算资源不到它们的一半，评估指标却取得了相当的分数。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

新型气动人工肌肉问世，让机器人可举起自重100倍物体

阿里千问App上线万相2.7视频生成模型，几句话修视频

DeepSeek V4力挺国产芯！优先支持华为等AI芯片：巨头已开始提前抢货

第二代VLA2.0正式上车，小鹏推送天玑AIOS6.1.0

原小米字节硬件高管徐睿加入Meta：将领导新组建的AI硬件团队

Gartner重磅预判：AI就业无末日！每年3200万人饭碗或“砸碎重铸”

全站最新

新型气动人工肌肉问世，让机器人可举起自重100倍物体

阿里千问App上线万相2.7视频生成模型，几句话修视频

DeepSeek V4力挺国产芯！优先支持华为等AI芯片：巨头已开始提前抢货

第二代VLA2.0正式上车，小鹏推送天玑AIOS6.1.0

热门推荐

新型气动人工肌肉问世，让机器人可举起自重100倍物体

阿里千问App上线万相2.7视频生成模型，几句话修视频

DeepSeek V4力挺国产芯！优先支持华为等AI芯片：巨头已开始提前抢货

第二代VLA2.0正式上车，小鹏推送天玑AIOS6.1.0

原小米字节硬件高管徐睿加入Meta：将领导新组建的AI硬件团队

Gartner重磅预判：AI就业无末日！每年3200万人饭碗或“砸碎重铸”

网传王宁发内部信谈泡泡玛特股价波动，知情人士辟谣

米哈游创始团队向上海交大捐赠，助力AI专项基金

《张朝阳的物理课》线下课来袭，4月5日直播演算Artemis II绕月轨道

汽修厂造“澳洲神药”：优思益骗局，戳穿保健品进口谎言

260 Mbps：美国载人绕月任务部署O2O系统，可向地球传输4K视频

OpenAI股权结构表曝光：微软130亿美元投资升值至2283亿美元

DeepSeek V4力挺国产芯！优先支持华为等AI芯片：巨头已开始提前抢货

一年暴涨20倍，数据显示今年防窥显示智能手机出货将达2100万台

新型气动人工肌肉问世，让机器人可举起自重100倍物体