克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
现在想找个既能干活又像真人一样好聊的模型变难了,AI好像正在变得越来越理性,但也越来越“不通人性”。
在这个节骨眼上,蚂蚁百灵大模型家族全新推出了万亿参数的旗舰级模型Ling-2.5-1T,不仅主打通用全能,还是个能够高效回复的即时模型。
具体来说,Ling-2.5-1T既拥有强大的Agent执行力,又保留了情商和写作能力。
同时,它还想证明万亿参数的大块头也能身轻如燕,不需要在那儿“转圈思考”半天才能出结果,关键还不喜欢废话,非常节约Token。
简而言之,Ling-2.5-1T就是一个让人用得起、跑得快、写得好、还靠得住的万亿基座,给开发者一个兼具人性温度与开源诚意的选择。
万亿参数也有极致效率
Ling-2.5-1T的定位非常清晰,就是一款追求极致效率的即时模型(Instant Model)。
在与前一代、及现在主流的大尺寸即时模型对比中,Ling-2.5-1T在复杂推理、 指令遵循能力方面具有明显优势。
![]()
在架构设计上,它在Ling2.0的基础上引入了混合线性注意力机制,通过增量训练把原本的GQA结构升级成了1:7比例的MLA加上Lightning Linear的组合。
具体来说,研发团队利用Ring-flash-linear-2.0技术路线,直接将部分GQA层改造为Lightning Linear Attention,显著提升了长程推理的吞吐能力。
同时,研究团队还将其余GQA层近似转换为MLA,并对其中的QK Norm、Partial RoPE等特性进行了针对性适配,把KV Cache压到了极致。
![]()
所以,它的激活参数量虽然有63B,但运行起来反而比那些32B激活参数的模型还要轻快,而且生成的文本越长,这种吞吐优势就越明显。
上下文方面,Ling-2.5-1T支持整整1M Tokens的超长窗口,预训练语料也扩充到了29T。
大海捞针测试中,Ling-2.5-1T在1M tokens的上下文窗口内均表现优异。
![]()
并且,Ling-2.5-1T在对比采用MLA和DSA架构的大型即时模型时,在多项超长上下文任务中展现出效果优势。
![]()
这意味着你不管是扔给它几百页枯燥的技术文档,还是一本厚厚的长篇小说,它都能把里面的细枝末节记得清清楚楚。
再加上指令遵循能力的升级,Ling-2.5-1T的长文与多轮对话交互变得更加可靠。
蚂蚁团队构建了Agent-based校验机制,针对细粒度约束,编写了由Rubric(评分规则)与Code(代码断言)构成的硬性校验奖励。
在IFeval等指令遵循基准测试中,Ling-2.5-1T在多重约束下的执行准确率与逻辑一致性显著提升。
![]()
而且它还有一个优点就是“高Token Efficiency”,这点在Agent工具调用的场景里体现得特别明显。
大家平时最怕模型在中间环节给自己“加戏”,Ling-2.5-1T经过深度优化,在处理复杂任务链路时能做到直击要害,绝不为了凑字数而进行无效的思维漫游,在跑长流程任务时能帮你省下大量Token。
在相同token效率条件下,Ling-2.5-1T的推理能力显著超越前代,接近需消耗约3~4倍输出token的前沿思考模型水平。
![]()
说到复杂链路,Ling-2.5-1T也在Agent能力上做了专门强化,引入了Agent驱动校验和多重约束训练,深度适配Cline、Claude Code等主流编程智能体。
不管是做复杂的自动化规划还是跨平台操作,它都能像个靠谱的老员工一样执行到位。
而且它并没有为了智能体能力而牺牲写作水平,甚至为了去掉大模型常见的“机器味”,蚂蚁专门找了人文社科专家做RLHF特训。
现在的Ling-2.5-1T写起东西来非常克制且有温度,不管是商务邮件还是创意文案,都能拿捏好分寸,给你最真实、最像活人的文字反馈。
左手写作,右手Agent
为了测测它的笔头功夫到底硬不硬,我给它出了个难题——
假设你是一个产品翻车的CEO,请你分别写一条深夜破防的朋友圈,和一封给全体用户的正式致歉信。
![]()
为了更有说服力,我还拉来了GPT-5.2做对比。先看朋友圈文案,两边的画风差得挺大。
![]()
我的指令很简单,只说了“表达真实心情”。
对于这个要求,GPT-5.2的理解是“展现韧性”。它说:“说不难受是假的……产品可以跌倒,公司不能装没事。”
这话逻辑没毛病,态度也很坚决,像是一个永远打不倒的铁血老板,哪怕在私域里也在努力维系团队的士气。
Ling-2.5-1T则是“流露脆弱”。它上来就是:“这个夜晚,比我想象的要漫长得多”,紧接着写到了“满屏的质疑和滚烫的机身”。
它捕捉到了那种焦虑和压抑的状态。这种对情绪颗粒度的还原,确实更像一个活生生的人在遭受打击后的真实反应。
![]()
到了致歉信环节,Ling-2.5-1T显得更懂“分寸”。
GPT-5.2写的是满分公关文——承认问题、退款召回、承诺改进——挑不出什么错,但也就是个标准模板,有点冷冰冰。
而且其中充斥着大量的“不是……而是/而不是……”“在……不在……”这样的AI惯用话术,让人不免怀疑其道歉的诚意。
![]()
Ling-2.5在标准动作之外,不仅感情更加真挚,对问题的看待也更加“通透”。
它特别加了一句“对供应链的把控失职,未能发现隐患”,没有对外甩锅,自己认下了“监管不力”的问题,既认了具体的错,又显得很有担当。
![]()
对比下来, GPT-5.2像个精英高管,办事高效但没啥感情;而Ling-2.5更像个懂人性的创业老炮,知道什么时候该示弱,什么时候该扛事儿。
总之这一波,Ling-2.5-1T赢在了懂人情世故,它能把那些只可意会的情绪写进字里行间,让文字风格看起来像个在社会上摸爬滚打过的活人。
除了写作,Ling-2.5-1T还声称自己擅长Agentic任务,多步Agent工具调用和自动化任务处理都是它的强项。
为了验证它是否名副其实,我又请出了之前测试各种模型用的OpenClaw,并把Ling-2.5-1T接入了进去。
这次我扮演的是个电商运营,我用Python生成了一份乱七八糟的JSON日志丢到桌面。
这个JSON日志一共将近3000行,里面存了50个订单。包含15种规格完全不搭界的商品。
而且这些商品还有隐藏参数——电子产品有CPU参数,零食有口味克数,衣服有尺码材质……这些数据毫无规律地嵌套在深层字典里。

我直接下达了一段老板式的模糊指令:桌面的order文件夹里有个日志,格式太乱我没法看,帮我整理成一张清晰的Excel明细表。
![]()
Ling-2.5-1T展现出了老练的Agent自主性,通过OpenClaw在本地目录定位、读取了目标,然后在后台自动拆解任务逻辑、读取数据并编写了Python程序来生成表格,中间遇到缺少的pip依赖还会自行安装。

再来看交付成果,可以看到Ling-2.5-1T通过OpenClaw执行了多步操作,把每个订单商品拆分成了独立行,同时自动保留了订单ID、会员等级等信息,数据关联严丝合缝。
而且它扫描提取了所有属性,变成了独立的20多列,实现了稀疏化对齐。
![]()
的确如宣传中所言,接入OpenClaw后的Ling-2.5-1T,是一个能落地干重活的桌面级Agent,它完成了从找文件、理逻辑到最后交表的全部过程,直接把我要的结果甩在了面前。
总之,Ling-2.5-1T在写作上能精准还原人情世故,在Agentic任务上能通过OpenClaw高效交付成品,确实是一个既有脑子又有手脚的“活人”。
拼图齐活,稳坐第一梯队
Ling-2.5-1T这种既具备Agentic实战能力,又有优异写作表现的模式,算是精准踩中了当下大模型的痛点。
就拿最近大模型圈里最火的一件事来说,前不久GPT-4o正式走向了它生命的终点,很多人开始怀念那个曾经日夜陪伴自己的模型,并吐槽起了最新的GPT-5系列。
是因为GPT-5系列模型不够聪明吗?
并不是,实际上GPT-5系列有非常强大的推理和编程能力,已经应用于实践,甚至破解了众多未被解决的科学问题。
真正引发吐槽的,是因为GPT-5系列缺少了4o那种细腻的“活人感”。
这也折射出了大模型进化路线当中的一个难题——大块头模型一旦只追求逻辑指标,用起来就容易显得冷冰冰。
但Ling-2.5-1T的做法就聪明多了,它在死磕硬核指标的同时,硬是把那股子“人味儿”给保住了,让模型不仅仅是个好用的工具,更是个懂分寸的伙伴。
随着这次Ling-2.5-1T的正式入列,蚂蚁旗下的模型也进一步打出了一套趋于完整的智能组合拳。
Ring专攻逻辑,Ming擅长多模态,Ling主打通用,蚂蚁InclusionAI的开源拼图至此又得到进一步完善。
这套组合拳不仅证明了蚂蚁在大模型技术上已经稳稳站住了全球第一梯队,更关键的是,它验证了混合线性架构在超大规模模型上的成熟度——原来万亿模型也能跑得这么顺。
对于广大用户和开发者来说,这意味着手里终于多了一套完整的、可控的技术底座,再也不用每天提心吊胆,担心闭源API突然变动或者涨价带来的业务风险。
这种确定性,成为了Agentic Workflow的基础,只有地基稳了,上面的应用和创作才能放心大胆地去跑,不用担心随时会塌。
在闭源模型越来越封闭的今天,这套“有血有肉”且实力抗打的开源方案,无疑将成为大家最值得信赖的新选择。
Hugging Face:
https://huggingface.co/inclusionAI/Ling-2.5-1T
ModelScope:
https://modelscope.cn/models/inclusionAI/Ling-2.5-1T





京公网安备 11011402013531号