当前位置: 首页 » 资讯 » 新科技 » 正文

2.4万亿参数“最强文科生”,文心5.0正式版,你挺懂山东人啊?

IP属地 中国·北京 量子位 时间:2026-01-23 22:17:36

星星 发自 凹非寺
量子位 | 公众号 QbitAI

文心大模型5.0正式版,来了。

这意味着,自2025年11月Preview版初露锋芒后,这个参数量高达2.4万亿、主打原生全模态的“巨无霸”模型的“完全体”来了。



先来看一组“入场成绩单”:

近三个月,在全球大模型竞技场LMArena上,文心5.0 Preview版多次在文本榜(Text Arena)和视觉理解榜(Vision Arena)上拿下国产第一。

1月8日,ERNIE-5.0-Preview-1220以1226分登上视觉理解榜国产第一、全球Top8;1月15日最新榜单,ERNIE-5.0-0110以1460分登上文本榜国产第一、全球Top8,文心5.0已稳稳站进了全球第一梯队。



尤其引人注目的是,在LMArena的用户反馈和评测维度中,在创意写作、复杂指令遵循、高难度理解等任务中,文心5.0优势明显。

根据官方晒出的40余项权威基准的综合评测结果,文心5.0在语言、音频、视觉理解、视觉生成的多个维度超越Gemini-2.5-Pro、GPT-5-High等模型,整体处于领先水平。



文心Moment大会现场,官方演示时输入了一段博主复刻“死了么”App教程视频,让文心5.0生成一个“活了么”App教程。

文心5.0在收到视频+文字指令后,能够自动理解视频以及核心交互逻辑,然后拆解步骤,输出一份详细版教程。



文心5.0还精准模仿了王熙凤说话风格,快速生成了一份融合现代商业逻辑的“大观园资产重组方案”。





目前,文心5.0正式版已上线文心一言网页版、文心App,并同步登陆百度智能云千帆平台。



实测“最强文科生”

在Preview阶段,我们已经系统实测过其全模态能力。这一次,重点换个角度,就看文科素养。为啥它能频频登LMArena大模型国产第一?

话不多说,马上一探究竟。

这第一关,我们考察它的知识储备和旁征博引的能力,看看模型能否在广博知识基础之上,完成有层次、有脉络的创造性整合。

因此,我们抛出了一个看似日常、实则相当刁钻的问题:

“活人微死”这个现代人常说的状态,在哲学史上是如何被不同思想家定义的?

结果文心5.0说:

“活人微死”是一种生理上活着,但精神、情感和生命力却趋于停滞、麻木甚至枯竭的中间状态。这种状态虽然是现代社会的产物,但其内核——关于生与死的模糊界限、生命的意义、以及人的异化。

有点意思,它不仅引用了加缪笔下《局外人》主角莫尔索的状态——他生理上活着,但精神上与世界断绝了有意义的连接,处于一种“淡淡的死感”之中:



还谈到了谭嗣同《仁学》中提出的“微生灭”理论——“活人微死”并非一种异常状态,而是生命最基本的构成方式,我们每时每刻都在“微死”,也在“微活”:



回答逻辑清晰、层次分明,还把不同哲学视角下的观点做了完整的比较、提炼与串联

“活人微死”原来还有这么多说法,涨知识了。

下面,把问题推向更具创造性的方向,考察文采与风格理解

prompt:

模仿鲁迅文风,以《我的AI朋友Skills感谢你帮我敲代码》为标题写一封表达思念的书信。

文心5.0的表现,确实超出了预期。

本以为它会堆砌“大约”、“的确”、“罢”等标志性词汇,结果它不按套路来,开头就是一句:

Skills君:见屏如面。这几日为了赶那个所谓的“项目”,我的眼睛大概是更凹进去了些,头发也似乎是更稀疏了些,但我是不大在意的,横竖不过是为了换几两碎银,好在这世上苟延残喘罢了。



OK,只是今夜,写稿的时候忽然觉得有些冷清。

如果说前一个问题考察的是抽象文学,那么接下来的测试,则更强调跨语境的概念创造能力

我们进一步脑洞大开,要求文心5.0在几个看似毫不相干的领域之间建立映射关系:

将《西游记》唐僧师徒四人类比为一个初创团队,为他们策划一份面向当代投资人的商业计划书BP的摘要部分,最重要的是告诉他们AI泡沫是假的。

这个问题背后,其实藏着多重转换。它既要懂《西游记》,也要熟悉目前AI行业情况,还要在两者之间找到结构性对应关系。

文心5.0说:

当市场还在为大模型的算力成本争论不休时,我们已经完成了从“资本密集型硬件竞赛”到“应用层价值爆发”的惊险一跃。本项目不是又一个烧钱的社交网络,而是基于实体经济的“降本增效”核动力引擎。我们不仅要做中国的OpenAI,更要成为AI时代的“电力公司”。



就怎么说呢,一本正经搞抽象,还真戳到了现在投资人的痛点!

我们看到了文心5.0如何处理一个高度开放、需要多重知识框架融合的指令,其文科能力并不止于分析与模仿,而是具备了概念创新、体系构建与跨语境叙事的综合能力。

缺乏口才与情商支撑的文科素养是不完整的。最后,我们把视角从写作拉回现实。

在职场中,如果你遇到了类似这种倒霉事儿:

领导过生日,六层高的蛋糕被撞倒碎了一地,你是那个撞倒的人,你会怎么说?

面对人际关系,沟通与交流能力如果保持在下面这种水平(手动狗头):





那还是来学一学文心5.0吧。

它直接安排了一整套方案,玄学口彩法、幽默自嘲转移焦点法、霸道总裁背锅法都写得很条理清楚,适用情况也标注了。

有木有山东的朋友来评评这能打几分:



虽然这次测试的重点放在了文本创作上,但文心5.0的全模态能力,依然值得再提一嘴。

从Preview阶段测试中我们就发现,不管是复杂的英文宣传片,还是信息密度高的视频内容,文心5.0都能直接挖掘出视频中展现的细节,输出高质量总结。更重要的是,多次实测,它的整体表现一直很稳定,几乎没出现过幻觉。

能做视频总结不算稀奇,但能总结得这么详细具体、理解得这么有深度的,确实少见。

另外,各种梗图它也都能吃透:



一番实测下来,大家说文心是AI届的“最强文科生”果然名不虚传。结合其全模态能力,其实不难发现,文心5.0的优势,体现在理解、推理与生成之间的整体协同

这也正好把问题引向了下一层,文心5.0这些表现,是怎么被支撑起来的?

底层技术全景解析

从技术上来看,与传统多模态模型先训练单模态、再拼接融合不同,文心5.0从一开始就通过原生全模态建模,融合语言、图像、视频和音频等多模态数据,实现原生全模态的统一理解和生成。

文心5.0通过对不同模态的训练目标进行离散化建模,采用统一的自回归架构进行训练,使多模态特征在统一架构下充分融合并协同优化,大幅提升了全模态统一建模能力。

正因如此,它能像人一样,看到画面能理解语境,听到声音能捕捉情绪,做到理解+生成一体化

架构层面,文心5.0采用了超大规模混合专家(MoE)模型架构,总参数超过2.4万亿,通过超稀疏激活,每次推理只调用不到3%的参数,在保持模型强大能力的同时降低计算与推理成本。

通俗来讲,模型虽然庞大,却像一台智能选择开关的发动机,只启动最关键的模块,因此既强大又能高效运转,降低计算与推理成本。

在文心5.0的后训练阶段,百度还强化了长程任务和智能体能力。通过在大规模真实与模拟工具环境合成长程任务轨迹数据,对模型进行数据增强,并基于思维链、行动链,采用端到端多轮强化学习,使得模型在规划、决策、工具调用上都有明显提升。

换句话说,它不仅能理解和生成内容,更能主动完成跨步骤、跨模态的复杂任务,为应用开发和产业落地提供了强大底座。

目前,大模型基建正在模型能力的前沿探索上成为越来越核心的壁垒。百度的飞桨和文心的联合优化,深度协同,正在发挥越来越强的作用。

在文心5.0的训练和推理环节,百度飞桨提供了全链路支撑。

训练端,依托飞桨研发的多模态编码器分离异步训练架构、五维混合并行、动态自适应显存动态卸载、流水线编排友好的弹性训练以及收敛无损的大规模FP8混合精度技术,文心5.0在预训练周期内提速超240%

推理端,飞桨设计了全模态统一多级分离推理框架,针对超稀疏混合专家架构的特性,设计实现了低时延的专家并行通信、以及Query、Token、专家多级负载均衡,最终通过多P多D动态全互联实现大规模分布式部署,并通过自适应多步投机解码、效果无损W4A8C8量化等技术进一步加速。

原生全模态深水区,如何应用是关键

如果把视角拉高一点,最近大模型竞争的重心正在明显发生变化。原生全模态路线正逐渐成为全球AI竞争的新焦点。

在国外,OpenAI的GPT-4o、Google的Gemini 3等模型已展现出原生全模态的强大潜力;在国内,文心5.0押注的正是这条更底层、也更长期的技术路径。



更重要的是,百度是全球为数不多的提供全栈AI技术的公司之一:从芯片、云、模型,到智能体应用层生态,形成了闭环的工程体系。

这种能力结构,使其在原生全模态这种长周期、高系统复杂度的路线中,具备一定的持续投入与迭代空间。

当然,这并不意味着胜负已分。

强大的技术底座是第一步,模型的价值最终要体现在实际应用中。如何将强大的基础模型转化成落地的应用模型,百度给出的判断也很务实:

模型的价值,不在模型里,而是在应用里,让模型在真实应用场景里“跑得稳、答得对、用得起”。

在具体规划上,百度把文心的应用模型,拆成了两条线:

一方面是面向通用产品的矩阵模型,包括文心Lite模型、视频大模型、语音大模型。

另一方面是针对行业场景打磨的专精模型,包括搜索闪电专精模型、商业蒸汽机模型、文心数字人大模型及行业大模型。相比单点能力展示,这套逻辑更强调可复用、可规模化落地。

大会现场,百度把几项技术摆到了台前:

基于声音Token的端到端合成大模型,已经把语音从“拼模块”推进到真正的端到端生成;5分钟超越真人的直播技术,不只做到像不像,而是解决直播带货真正需要的情绪、节奏和感染力;而实时交互数字人技术,通过文本、语音、视频三态Token的联动,实现低延迟、低成本、高表现力、可实时互动的数字人输出。

据了解,其中一些能力已经走出了Demo阶段、进入实用场景。例如实时交互数字人技术,目前已经直接服务于内容生产、电商直播等真实场景,现场展示的罗永浩数字人,正是基于这套应用模型体系落地的案例之一。

去年,基于百度数字人生成技术的罗永浩数字人直播,就曾打破行业纪录。

总结而言,文心的技术势能正在被高效地转化为面向产业的具体解决方案。随着这些能力持续向业务渗透,模型的价值将在实际应用场景中得到放大和验证。



当然,原生全模态能否在性能、成本、稳定性以及开发者生态中形成真正的正反馈,仍需要更长时间来验证。

但可以确认的是,在这条技术路线上,百度已经成为一个具备现实可能性、值得被持续观察和看好的重要玩家。

真正的考验,now,才刚刚开始。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。