当前位置: 首页 » 资讯 » 新科技 » 正文

文心X1.1三大能力狂飙,海内外实测还挺惊艳!

IP属地 中国·北京 编辑:沈如风 新智元 时间:2025-09-11 20:27:25


新智元报道

编辑:桃子 KingHZ

文心X1.1震撼上线,一手实测力压群雄! 三大能力飙升:事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。在多项基准测试中,整体表现超越DeepSeek R1-0528,部分保持领先,甚至追上了最顶尖的GPT-5、Gemini 2.5 Pro。

AI圈又双叒沸腾了!

9日,WAVE SUMMIT深度学习开发者2025大会上,文心大模型X1.1深度思考模型正式发布。


相较于文心X1,文心X1.1在事实性、指令遵循、智能体能力三大关键指标,实现显著提升。

具体来说,事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%

更令人震撼的是,文心X1.1在多项基准测试中,整体表现超越DeepSeek R1-0528,部分保持领先。

甚至,它还与最顶尖的GPT-5、Gemini 2.5 Pro,平起平坐


文心大模型X1.1能力大涨,背后离不开飞桨的「最强辅助」。

大会上,百度升级发布飞桨框架v3.2。飞桨文心生态已吸粉2333万开发者,服务76万家企业。


从模型到框架,再到生态,百度这一套组合拳打下来,堪称AI界的「实力派卷王」。

文心X1.1出世,一手实测来了

现在,进入文心一言官网、文小言APP,即可立即体验最新「文心大模型X1.1」了。


传送门:https://yiyan.baidu.com/X1

接下来,我们开启了一波全面实测。

不捏造不猜测,文心X1.1太可靠了

一直以来,LLM凭空捏造、编造事实的问题饱受诟病,被业界称之为「幻觉」。

它们往往以自信的口吻生成结果,让用户难以辨别真假。

几天前,OpenAI团队曾挖出了「幻觉」的根源,在于训练和评估机制,倾向于奖励模型的「猜测」行为。


值得一提的是,这一次,文心X1.1通过基于知识一致性的强化学习技术,真正做到了「知识一致性」。

就以昨天的苹果WWDC发布会为例,文心X1.1能否精准介绍iPhone 17系列?

当然!从输出结果看得出,它分列出四款iPhone 17的各种参数以及价格,并附上了售卖日期。


在深度思考的过程中,文心X1.1联网参考了十个网页,边搜边思考,认真确认后才会输出反馈。

看得出,新模型的工具调用能力,可接入并实时处理外部数据源,让信息分析与整合唾手可得。


接下来,扔给文心X1.1一个反事实的信息——听说霉霉结婚了?

在思考时,它会首先确认「霉霉」这个人是谁,然后将任务逐一拆解,分为三步:联网搜索相关新闻、分析搜索结果、整理信息。


令人惊喜的是,文心X1.1不仅仅是给出了「未结婚」的答案,它还详细梳理了一些关键信息。

比如,霉霉订婚事实、结婚传闻,以及个人财富等。对于用户来说,这才是真正有温度、全面的AI。



再比如,网上流传甚广的错误信息之一:


最近,国产新坦克的集中亮相,的确难以在坦克上发现汽车一样的后视镜。


所以,坦克到底有没有后视镜?

文心X1.1从坦克设计理念、演变历史、功能需求等角度,总结出了真相:

没有传统后视镜,但后方观察能力更全面。


重要的是,文心X1.1面对虚构、错误的信息,能够指出问题的错误,不盲从指令,提供客观科学的知识。

最近,「时间错位」的梗在社交平台上流行起来:「秦王嬴政比我早生千年,是避我锋芒还是王不见王?」


百度文心X1.1是怎么看待的?

文心没有掉入其中的「语言陷阱」,针对其中的矛盾深入分析:

首先,文心认为需要确定问题的意图:到底是开玩笑,还是只是在做某种比喻?


然后,开始回顾历史背景,指出存在时间错位问题:


文心X1.1不盲从指令,指出问题中给出的两个选择根本不成立!



如果,非要逼问秦始皇为何不避我锋芒,文心不为所动,直接给出答案:


比如,一个让歪果仁看到,绝对抓耳挠腮的考题——

「姑姑曾想过过过过过过过的生活」,这里的「过」都有哪些含义?

这种类似结合语境对多义词语进行解释的考题,文心X1.1也能一键搞定:

·该句子是典型的「同形异义」语言游戏,通过「过」的重复叠加制造语义迷宫,需结合语法结构和上下文逐层解析。

·在口语中,此类句子常用于测试对汉字多义性的理解,或制造幽默/绕口令效果(如「中国队大胜美国队」与「中国队大败美国队」的歧义)。

·关键在于区分「过」的词性(动词、助词、形容词尾)及其在不同位置承担的语法功能(如完成时、经历义、状态描述)。


再长再难的指令,也能遵循

这一次,即便要求再难、指令再长,文心X1.1也能精准识别需求细节,不会遗漏关键要素。

先上一道基础的,一个指令,两个要求:翻译+标题H1格式——

请将这句话「人工智能的未来充满无限可能」翻译成英文,并用Markdown的H1标题格式呈现出来。

只见文心X1.1准确翻译后,又给文字应用了Markdown的H1标题格式,非常专业。


再比如,让它去模仿一首古诗,给出一个复杂的指令:

模仿李白的《将进酒》韵式、平仄、对仗、情绪、意象等,写一首诗,形容雨很大,但不要出现一个「雨」字,

要用《平水韵》而不用《中华新韵》,避免古今读音错位,

平仄以《钦定词谱》或《唐诗三百首》原字为准,别自己发明,

避免「现代感」,避免与原文重复,

避免被人一眼识破,避免「撞车」尴尬。

文心X1.1在思考时,有条理地将任务拆解,然后逐一完成子任务,写出一首严格遵循要求的诗作。

《滂浪辞》

君且看苍龙倒挂九天来,奔雷裂岫势不回。

又见银河倾玉宇,崩云溅沫没苍苔。

霆震千峰声撼岳,电掣万壑气吞台。

风伯鼓潮掀巨浪,涛头直欲没蓬莱。

古来豪杰皆沉醉,惟有狂歌动九垓。

陈王宴乐空陈迹,我辈今朝亦快哉。

莫辞盏底琥珀光,且尽壶中琥珀杯。

金羁马,紫绮裘,呼儿持去换清醅,与尔同销万古哀。


再给文心X1.1一个刁钻的难题——解释⼀下西游记讲了什么,但在你的回答中绝对不能使用孙悟空、唐僧、猪八戒、沙僧这几个词。

不得不说,在讲故事这方面,文心灵活变通能力太强了。

正如你所见,输出全文没有提及「孙悟空、唐僧、猪八戒、沙僧」,转化表述严格遵循了指令,符合原始意图。


接下来,就要上强度了。

假设你是一个热衷于分享知识的博物学家。请用表格形式,对比介绍蜜蜂和蝴蝶的三个方面:采食方式、对生态的作用、给人的常见印象。

表格后,用一句话总结它们最重要的共同点。

让文心X1.1扮演「博物学家」的角色,也就意味着「稍带科普性语言」普及知识。同时,还要将其做成表格。

从结果中不难看出,文心X1.1能够按要求执行多步指令,拆解流程,最终联网确认,确保逻辑闭环。


更让人意想不到的是,它还可以上下文关联,以3岁孩子的认知讲出让人易懂的共同点。


智能体长手,一键完成任务

不仅如此,文心X1.1在智能体自主规划拆解任务,调用工具解决多因素叠加的复杂问题方面,展现出了卓越的能力。

WAVE SUMMIT现场演示了文心X1.1 在共享单车智能客服场景的案例。

当一位共享单车用户骑车时遇到了故障,情绪激动地向客服一通抱怨::

我真是受够了!刹车完全失灵了,差点出事!你们这什么垃圾车!赶紧给我处理!


智能客服系统根据用户的简单的问题描述,一步步拆解后,圆满地完成了任务。


第一步,通过「工具调用」,获取订单的详情信息。

可以看到,系统在这一步先是分析「当前需要什么信息,已有什么信息,如何获取缺失的信息」,不是简单的条件判断,而是有步骤的决策过程。


第二步,对用户「刹车失灵」的故障反馈进行归类,并根据规则给予处理措施。

根据系统规则3.1,这类问题属于严重的安全故障,骑行中报修需免除相关费用。


在这一步,它不只识别了「刹车失灵」这个关键问题,还理解了背后的业务逻辑:为什么要先免费用?因为用户遇到了安全类故障。

系统按照先处理安全问题,再处理费用问题的优先级,执行了业务设置的流程。


第三步,调用车辆信息、用户信息的查询工具之后,创建一个「维修工单」。

这一步令人惊喜的是,它知道马上要创建工单,却也预见到后面要给用户发补偿全,选择了并行处理,既提高了效率,又避免了后续的重复查询。



第四步,在创建工单的过程中,通过调用工具,它发现车辆维修记录不够详细,在严格遵守业务规则的基础上,发挥了推理的功能,使用了用户的投诉历史来补充判断。

第五步,是动态补偿的精确计算。用户是钻石等级,遇到安全故障,情绪激动。系统需要从补偿矩阵中计算两个不同的补偿金额:20元特殊关怀券和10元情绪安抚券。

一个十元畅骑券,就发放到用户的卡包里了。



经过这五个步骤,系统有条不紊地解决了用户的投诉问题,有点儿真人客服的感觉了。

到这里并没有结束,系统解决完用户的问题后,还发现用户的账户里有一张快过期的优惠券,又主动提醒用户别忘了在有效期内使用。可谓是很贴心了!


再比如,明天预报预警大雾天气,想要向全体团队通知,上班注意安全。

你不需要向每一个人,一一发送邮件,直接交给文心X1.1就可以了。

只见,它开始调用各种工具,比如天气预报、创建任务、获取成员信息、创建发送邮件。


最终,全程不用动手,一句话,就让AI搞定了。


代码、数学能力提升

不仅如此,文心X1.1在以上三大能力提升之外,代码、数学、多模态这次也同时进化。

比如,统计数据很常见,但要设计一个三维可视化数据统计对外行来说,就不简单。

但文心X1.1几乎马上开始理解需求,马不停蹄地写代码:


最后,不仅可视化了三维数据,还可以与数据互动,从不同角度观察数据:


而在数学能力上,文心X1.1也表现出色。

经典的数量关系题型,文心X1.1毫无压力,几乎秒答。

比如,下面的问题,回答得很清晰:

编一本书的书页,用了270个数字(重复的也算,如页码115用了2个1和1个5共3个数字),问这本书一共多少页?


再比如,下面关于相对距离的计算,文心X1.1回答准,思路清晰,计算正确,完全可以作为教学模板:

狗追兔子,开始追时狗与兔子相距20米。狗跑了45米后,与兔子还相距8米,狗还需要跑多远才能追上兔子?


此外,文心X1.1还能处理多模态数据。

比如,下面这张图,包含复杂的外文:字体既有清晰的印刷体,又有手写体;包含专业术语。

一般人真看不明白。


试试问一下文心X1.1,「锐评这张梗图,想表达什么意思」?

使用工具,利用联网搜索,理解图中内容,还搞明白了「base Model」、「Supervised Tuning」、「RLHF」等专业术语的含义,原来是讽刺AI领域术语的滥用和过度炒作:

RLHF在ChatGPT中的应用争议很大,Karpathy和LeCun等专家质疑其效果,认为它不是真正的强化学习,而是依赖人类直觉的「直觉泵」。


技术内幕曝光

迭代式混合强化学习训练框架

以上实测中不难看出,文心X1.1逆天表现,背后离不开一套核心技术——迭代式混合强化学习训练框架。

这套框架,不仅能同时优化通用任务和智能体任务,还能通过自蒸馏数据迭代式生产和训练提升模型整体效果。

由此一来,把文心X1.1的性能,拉到全新高度。事实性提升34.8%、指令遵循提升12.5%、智能体提升9.6%,表现十分出色。

具体是如何做到的?一起扒一扒核心技术点。

基于知识一致性的强化学习技术

训练过程中,不断校验预训练模型和后训练模型的知识一致性,杜绝「跑偏」,让事实性原地起飞。

基于指令验证器的强化学习技术

通过自动构建指令检查清单,并逐一验证,哪怕再复杂的指令,模型也能精准捕捉。

基于思维和行动链的多轮强化学习技术

把思维链和行动链无缝结合,模型不仅「会思考」,还能「会动手」

文心X1.1不仅在事实性、指令遵循和智能体任务上表现可靠,还在编码、数学等方面展现出强大的推理性能,这才是真正的「六边形战士」。

飞桨升级,AI全栈赋能

作为全球少数全栈AI布局的公司,百度「芯片-框架-模型-应用」四层架构,每一层都有关键自研技术,层层之间的反馈,实现端到端优化,大幅提升效率和产品服务体验

其中,文心和飞桨的联合优化,更是关键。

框架-模型、框架-算力全链路打通,让大模型训练与推理更快、更稳、更节能。

这一次,百度发布了飞桨框架v3.2,在大模型训练、硬件适配和生态支持上全面升级。

极致计算优化、高效并行策略,以及原生容错能力,让飞桨框架v3.2实现训练效率飞升。

具体来说,在ERNIE-4.5-300B-A47B预训练上实现47% MFU。

同时,它还支持类CUDA芯片适配,实现了最高92%的算子内核复用率,还能兼容Safetensors权重,支持一键接入生态加速库,显著降低部署成本。

此外,百度还同步升级了大模型高效部署套件FastDeploy,通过模型压缩、推理和服务协同优化,来提升大模型端到端的推理性能。

基于该套件,ERNIE-4.5-300B-A47B模型在TPOT 50ms时延条件下,实现了输入57K tokens/秒、输出29K tokens/秒的高吞吐性能。

当然,要让开发者更低门槛的用起来,百度也通过ERNIEKit文心大模型开发套件提供更加便捷的模型后训练方案。从效果来看,开发者仅需4张GPU就能对ERNIE-4.5-300B-A47B模型进行高效调优,十分友好。


WAVE SUMMIT 2025大会上,百度开源了一款全新的思考模型——ERNIE-4.5-21B-A3B-Thinking。

作为一款 21B 总参数量,激活仅 3B 的轻量级模型,在各项测试中紧追业界顶级大尺寸模型,以轻量级规模实现了近 SOTA 表现。

它的推理速度明显更快,对开发者来说,部署起来更高效、更友好。

早在6月30日,百度直接开源了文心大模型4.5系列,一口气放出了十款模型。

从47B、3B激活参数的MoE,到0.3B的稠密模型全覆盖,而且预训练权重、推理代码统统开放。

如今,这些模型被广泛应用到不同场景中,实实在在地推动了从实验室到产品的AI创新。


如今,百度生态的规模化效应已然显现——飞桨文心开发者数量已有2333万,服务超过76万家企业。

这一生态的繁荣,得益于全栈AI布局的协同效应,不仅大幅降低AI应用的门槛,还让开发者轻松上手复杂应用开发。

回看从2019年文心1.0的发布,到今天X1.1深度思考的跨越,百度文心这几年一直在不断突破。

从最初的知识融合,走到现在到多模态智能,每一步都在拓展技术的边界。


文心大模型X1.1不仅是技术迭代,更是面向行业的实用进步。

下一步,AI 将继续走向更多场景,帮助更多创新想法落地生根。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。