当前位置: 首页 » 资讯 » 新科技 » 正文

已达物理极限的大模型,下一步路在何方?

IP属地 中国·北京 编辑:李娜 数据猿 时间:2025-07-25 16:03:00
虽然大模型的发展仍面临很多困难,但是纵观过去的历史,在技术难题前面,总会涌现创新的能量。

数据猿

大模型下一步怎么走, 让我们走进WAIC2025找答案。

2025世界人工智能大会(WAIC)开幕在即,数据猿作为大会权威认证的受邀媒体,将以专业视角全程直击,带来最具深度与洞察力的大会解读,洞见AI未来。

在大会进入倒计时之际,WAIC振聋发聩地提出了AI三问:数学之问、科学之问和模型之问。主办方以此三问破题,旨在超越技术应用的喧嚣,直击人工智能发展的核心。希望以此来凝聚更多的智慧,探寻AI这一影响人类文明技术的演进方向。

面对这一宏大命题,我们将聚焦模型之问,尝试给出我们的思考与回应。

第一问:大模型如何走向了世界中心?

大模型是怎么一步一步站在了AI舞台的中央?

很多人意识到,想要进一步提升模型处理的效能,需要根本性创新而非渐进式改进。

☆架构革命:从Transformer到混合智能系统

很多人尝试对Transformer架构进行优化升级,比如MoE架构(混合专家模型),架构的核心思想是将庞大模型拆分为多个专家子网络,并通过智能路由机制动态激活少量相关专家处理每个输入。它将大模型无差别暴力解题的方式,优化为专人专岗,分组分类的形式,极大的优化了效率。

MoE架构受到很多顶尖大模型公司的青睐,其中最典型的就是DeepSeek。此外,Google的Gemini 2.0也采用了这种架构。

很多企业也开始尝试在Transformer架构之外,寻找新的方案。2024年,一种名为Mamba的新型架构作为挑战者问世。它在保持与Transformer相当的建模能力的同时,对于序列长度具有近线性的可扩展性。Mamba架构通过状态空间模型将计算复杂度从O(n²)降至O(n),使长文本处理效率提升10倍。

然而Mamba架构也存在一定的技术局限性,比如上下文学习能力和上下文的信息复制能力等。

那有没有可能将两者进行优势互补呢?

Transformer-Mamba混合架构是一种将Transformer模型的全局注意力机制与Mamba模型(基于状态空间模型SSM)的高效长序列处理能力相结合的新型神经网络架构。它能够有效克服两者的局限性,同时保留各自优势。

2025年,腾讯推出了国内首个相关产品。腾讯混元 T1采用了Hybrid-Mamba-Transformer融合架构。这一架构在不牺牲准确性的基础上,有效降低了计算复杂度,吐字速度最快可达80token/s。

计算机视觉领域,英伟达团队研发的MambaVision,利用Mamba与Transformer的融合设计,使MambaVision在Top - 1精度和图像吞吐量上超越同类模型。

☆训练范式升级:从预训练到后训练

除了架构的创新以外,业界也尝试从模型的训练方法着手,寻找大模型发展的新方向。

我们知道,预训练是大模型最具标志性的技术特色之一。预训练的优势在于,它能够在海量无标注的数据中学习通用特征,为下游泛化的任务奠定基础。但同时也带来了数据污染、知识幻觉等问题。

人类对模型行为的调控、对齐能力成为大模型提升的关键,后训练的模式由此登上了舞台。

后训练指在模型预训练完成后的优化阶段,通过量化、蒸馏、剪枝等技术直接优化已训练模型。其主要功能在于能够有效修正在预训练阶段的知识错误和事实偏差,使模型的输出更符合人类价值观,避免其信口开河。同时,通过后训练还能强化模型的多步骤推理能力,更好的助力大模型在具体应用场景的落地。

预训练目前主要有两种发展路径:一是通过在大量的推理轨迹上进行后训练,直接教会模型如何思考;二是利用搜索技术,在推理时指导模型的思考过程,让模型生成多个候选答案或推理路径,再由奖励模型来挑选出最佳结果。

(团队50人以下,营收500万美元以上的极简公司)

如果说蒸汽机、电动机、内燃机等技术革命,是对人类肌肉力量的延伸。那么大模型的发展无疑是对人类思维能力的一次突破。尽管看起来是人类在规划和设计AI,但AI不同于汽车、冰箱或者任何产品。这是人类第一次与一个在智力上比肩自己的物种打交道。在与人和环境的不断互动中,大模型已经从数据的处理工具,进化成人类可靠的合作伙伴。

虽然大模型的发展仍面临很多困难,但是纵观过去的历史,在技术难题前面,总会涌现创新的能量。大模型是一个没有使用说明,没有指导手册的全新领域,我们注定要在巨大的不确定中突围。在这些不确定中,唯一能确定的是,2025年我们将接近AI的真相更近一步。WAIC2025或许会给大家带来更多答案。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。