![]()
新智元报道
编辑:KingHZ
「高烧」三年后,AI行业终于冷静:Scaling红利即将耗尽,单纯堆参数绝非良药。但商汤已胸有成竹。
我们是否已经触碰到了LLM的天花板?
近日,在商汤科技与香港科技园公司联合主办的「模型智未来·2025商汤科技AI论坛」上,商汤科技联合创始人、首席科学家林达华发表主题演讲《从能力涌现到价值闭环,多模态大模型价值与创新之路》,分享了对AI发展现状与未来趋势的深刻洞察。
林达华回顾了过去三年人工智能行业的爆发式发展。
ChatGPT问世以来,最初业界深信「尺度定律」,认为通过堆砌算力和数据就能通往AGI;但2024年后发展节奏放缓,行业陷入迷茫;直到OpenAI o1及DeepSeek R1的出现,通过后训练范式的变革,包括长思维链、强化学习和Test-Time Scaling,突破了模型能力上升的瓶颈。
![]()
林达华直言,现在的AI行业已经走到了「十字路口」。
经过三年「烈火烹油」式的发展,「我们再次走到了关键十字路口」,林达华指出,接下来行业发展有两条重要路径:一是AI需要真正落地应用,以价值驱动技术和应用的发展;二是需要回归实验室,探索下一次技术范式的原始创新。
「每一次突破背后都来自技术的原始创新,今天我们再一次需要用创新来打破当前的技术发展瓶颈。」林达华还分享了商汤在多模态等领域的多项原创性的底层创新成果。
如下是林达华的演讲内容,在这里分享给大家:
AI再迎「十字路口」
双轮驱动破局发展瓶颈
非常荣幸,今天能和大家分享商汤在这个激动人心、快速演进的时代中的一些观察、思考,以及我们最近的研发进展。
大家应该记忆犹新,2022年11月,ChatGPT横空出世震撼了全世界。从那时到现在这三年,可以说是全球科技史上演进最快、变化最剧烈的三年。我也很荣幸能与团队一起,在这样的浪潮中不断思考和探索。
在2023年,整个行业——无论是学术界、工业界还是投资圈——都在讨论一个名词叫「尺度定律」(Scaling Law)。当时普遍认为,只要有足够多的GPU和足够大规模的数据,就能训练出最强的模型,从而找到迈向AGI(通用人工智能)的道路。
在随后几个月,OpenAI持续引领浪潮,从ChatGPT发展到GPT-4,业界对尺度定律深信不疑。但到2024年年中之后,大家感觉发展节奏放缓,行业陷入迷茫。
直到2024年第四季度,OpenAI推出o1,通过慢思考和Test-Time Scaling等技术,再次突破了大模型的能力边界。2025年初,DeepSeek-R1问世,它通过开源和详实的技术报告展示了达到高水平推理的路径。
后训练的Scaling让大模型推理能力达到前所未有的高度,在数学、编程等方向达到人类最优秀选手的水平。
但是,这代表了技术的终局么?
而就在近期,OpenAI前首席科学家伊利亚指出,原来主要依靠大算力Scaling的路径,都已逐渐走到了瓶颈,无论是预训练还是后训练都将面临挑战。
人工智能经过三年「烈火烹油」式发展,我们再一次走到了十字路口,接下来该往哪去?
在我看来有两条非常重要的路径:一是人工智能不能只停留在榜单成绩上,而要真正落地应用,以价值驱动技术和应用发展;二是如伊利亚再次强调的,我们应该回到实验室,重新探索下一次技术范式的变革。
无论是ChatGPT、o1、DeepSeek R1,每一次的突破背后都是技术的原始创新。今天我们再一次需要用创新,来打破当前技术发展的瓶颈。
三大趋势昭示AI进入价值落地爆发期
![]()
讲到落地,我想分享三个非常重要的趋势:
第一,人工智能技术性能的进步速度显著加快。
早期图像识别从MNIST模型出现,到最终突破人脸识别,用了很长时间。
而现在技术进展几乎呈垂直上升。例如,2023年GPT-4完全无法应对奥赛级别的数学题,而几个月前Google的Gemini已能拿到国际数学奥赛金牌。大半年前,当时全球最强模型在Humanity’s Last Exam(HLE)中只能拿到个位数分数,而近期推出的最新模型已经接近及格线。
可见,AI突破人类极限的速度越来越快。
第二,超越单一榜单,跨越多种任务来看,大模型处理复杂任务的能力显著提升。
早期,我们考验模型的任务都是普通人在一秒之内就能完成的事,比如认出照片里面是什么动物。到了后面,发展为人类需要花几分钟才能做完的数学题。
到今天,最新的模型已能完成深度搜索、撰写调研报告、分析复杂问题等原本人类需半小时才能完成的任务。
纵观二十年发展,在一个个评测基准(benchmark)从低分达到饱和的进程中,AI有了长足的成长,能处理的问题越来越复杂、耗时越来越长,从几秒到半小时,未来将很快能替代人类半天的工作。
第三,成本快速下降。
大模型发展初期,重心是参数竞赛,模型规模巨大,有几千亿甚至几万亿参数,计算成本非常高昂。
但是,随着模型训练水平的提升,规格小一点的模型也能取得越来越好的性能。
叠加上硬件进步,单位算力成本下降,以及系统的不断优化,我们现在已经可以用低得多的成本获得好的大模型服务。但根据斯坦福大学2025年的报告指出,在过去两年,达到实用水平的AI模型推理成本已降至原来的1/280。
这些趋势说明了什么呢?
一方面,AI在越来越多领域达到人类水平,能够承担越来越复杂、耗时越来越长的任务;
另一方面,它的使用成本正以每年1–2个数量级的速度下降。
这意味着,人工智能已经从在榜单上秀肌肉的演示Demo,发展到了一个爆发点,能够深入到可替代人类的高价值场景,为人类提供深层价值。
这一趋势将为人工智能与人类社会的关系带来深远影响。
![]()
从产业角度看,麦肯锡研究报告显示,2017年可能有20%的受访企业在有限度采用AI技术;而到了2025年,这个比例已经上升到了88%。这份报告还将企业使用人工智能技术的深入程度分成了4个不同阶段,从简单实验、PoC,到规模化应用,再到全流程、全规模部署。
我们可以看到,各个企业正在把对AI的应用推向深入——这一趋势虽然看上去没有像前沿突破那么令人激动,但是这种趋势,正是改变未来世界经济和企业竞争格局的一种深厚的,不可逆的力量。
对于商汤来说,我们一直致力于达成的目标:就是真正推动人工智能技术在行业深入落地,给客户和用户带来真正的价值。这里面,我们关注的焦点不单是技术评测,更重要的首先是成熟度,也就是这个技术是不是达到实用水平;然后是通过提效降本,以及和场景的深度结合,实现规模化的商业闭环。
在具体落地方向上,我们的多模态大模型可以在数字空间充当办公助手,帮我们撰写报告、开发软件、分析数据等,也可在物理世界帮助机器人投入到工业制造、智能驾驶、家居服务等。
虽然应用的形态很不一样,但是这两个方面的核心价值是一致的,那就是解放人类时间,让人们真正投入更有价值、更有创造力的工作。
用户价值牵引AI迭代,
打通落地「最后一公里」
接下来,我想用一个例子,讲清楚人工智能究竟能够帮助我们做什么,以及我们如何通过技术创新,让AI成为我们更好的助手。
大家可能都接触过AI PPT的应用。写PPT确实很耗时,那么我们可以用人工智能帮我们写PPT吗?
今天分享用的这份PPT是我自己写的,花了不少时间。这是其中一页,我想讲刚才提到的人工智能未来落地的三个趋势。我首先尝试了大家觉得这个方面做得比较好的Gamma,它基本上是把我的文字复制上去,而且排版的一致性也不太理想。
然后,下面这个是我用商汤的小浣熊帮忙做的。虽然离我满意的水平还有一点差距,但它在美观度、排版以及信息布置结构等方面,显然比上面那页更接近可用状态;我如果基于这个版本在进行修改就会容易很多,只需要根据自己的思路寻找更好的配图。小浣熊这个最新的版本,我们下周就会正式地发布给公众使用。
这个事情究竟是怎么做到的?
我可以给大家去分享一下我们做AI PPT背后的整个技术流程。
![]()
首先,我们会让模型学习各种各样和PPT相关的语料,包括配色、文本等,让模型具备做PPT的基础知识。
然后,用大量不同类型PPT的任务提示词和成品的配对进行训练,让模型学会模仿生成PPT。但这个阶段做的PPT很多是「形似神不似」,因为它只看到了PPT完成的结果,缺乏对制作者思考过程的理解和训练。
那么我们如何进一步提升呢?
我们可以找人把他们做PPT的全过程思考的全部记录下来,但这样的数据很难获得,成本太高。
要克服数据瓶颈,我们转变一下思路,从让人们把思考过程写下来,变成让人们告诉我们什么是好或者不好。这样人就从需要提供完整制作过程,简化为只需要两秒钟快速判断好坏,极大降低了数据收集成本。
在技术上,将人对PPT的审美和评判转化为奖励模型。我们基于不同的评判维度,比如内容结构,审美风格等等,做了多个不同的奖励模型,整合在一起,通过强化学习(Reinforcement Learning)来牵引模型的迭代,让它逐渐学会产生更高质量的PPT。
这个过程中,不仅需要高质量数据,还需要一个有效的强化学习算法流程,以及背后支撑它的多模态能力。
![]()
这种迭代模型我们已经成功应用到不同的迭代方向上,AI PPT仅是案例之一。
这一页幻灯片展示了商汤一整套的系统性方法论:深入行业,以用户价值牵引,以强化学习为内核,以大装置和强大的多模态模型为底座,牵引模型快速迭代。
在这个闭环模式中,强化学习不再是单纯的训练算法,而是从研发延伸到落地,成为整个产品迭代的核心引擎。
在这个闭环中,用户提出请求,AI智能体输出结果,用户在使用这个结果的过程中,我们的系统也会获得用户的反馈;然后用户的反馈也会注入到奖励模型,从而牵引模型的更新。
用户每一次使用都在促进模型迭代,使研发与应用融为一体。这套模式能有效运行是需要基础的,它背后依赖的是,商汤强大的多模态基础模型和人工智能基础设施商汤大装置。
以底层创新突破产业发展瓶颈
在大规模商业化落地过程中,AI仍面临许多挑战。比如可靠性不足,尤其专业思维数据依旧非常稀缺;空间智能、多模态理解存在短板;成本虽已经经过上百倍的下降,但模型处理复杂任务时,需要很长的过程和反复试错,规模化应用时,成本依然非常高昂。
这些都要依靠我们进一步的技术创新去解决,这也是我们技术创新的机遇。
回顾大模型浪潮,有两篇划时代论文:
发表于2017年的《Attention Is All You Need》提出Transformer架构,
发表于2020年的《Scaling Laws for Neural Language Models》提出尺度定律,
它们分别来自Google和OpenAI。
2022年底ChatGPT的诞生,技术的策源就是从这些学术工作开始。所以,当我们看到AI产业化的高歌猛进,我们不能忘记,任何一次重大的技术变革,都源自最底层的学术创新。
今天我们走到了新的十字路口,国际上一些重要的学术先驱,比如伊利亚、李飞飞等最近也都提出,我们走到了新的需要创新的时间关口,需要从原来的语言模型走向空间模型、世界模型,训练范式也走到了瓶颈,需要新的突破。
商汤基于视觉与语言模型的长期积累,深耕多模态模型发展。我们在今天也看到了主流多模态的局限和底层创新的机遇。
传统多模态模型的基本结构,是视觉感知和以语言为核心的理解和推理的浅层拼接。整个的理解和思考过程主要是基于文本的,因此缺乏深层次的视觉理解能力。
![]()
举个简单的例子,Grok-4在各种学科测试都具备非常高的水平,但问它图中有多少根手指,告诉我5根,而图中实际为6根。说明它看到是一只手之后,就开始做语言推理,并没有真正理解图片,所以结果完全错误。
再如GPT-5,现在世界上最先进的模型,你问他这个东西从上面往下看,问这个物体的二维结果,告诉我是A,因为A从二维布局角度似乎更像问题中的图;它完全缺乏对于三维空间的理解。
如果这样的模型装到机器人里面,他在真实的三维空间里面行动,会闹出多大的笑话?这是我们要真正推动机器人落地,需要去解决的一些深层次的问题。
我们近期开源了多模态大模型的NEO架构,从根本上革新了多模态的底层结构。它不是简单拼接视觉与语言模块,它的每个计算层,每个细胞,都具备内生的多模态能力。该架构仅用1/10数据就达到同量级最好的多模态模型水平。
我们还结合多模态数据整合与突破性的训练范式创新,如跨视角预测(Cross-View Prediction),去培养模型空间思维能力,这是主流的next token prediction很难做到的。
通过这种架构的内生突破,各种模态数据整合,以及训练方式上超越next token prediction的创新,我们做到了在多模态多个层面的突破,尤其是在空间智能表现上超过了GPT-5甚至最新的Gemini-3 Pro,而且也超过了李飞飞团队最新发布的空间智能专用模型Cambrian-S。
上图中最外边的六边形是我们模型的表现,中间是其他模型包括GPT-5等,其中绿色是李飞飞团队近期发布的空间智能模型。
不仅如此,我们看到模型性能随着数据量增加的成长速度也显著高于主流方式的训练过程,代表着我们找到了更高效的通向空间智能的范式。这两个模型均开源,大家可以去下载试用。
最后是关于成本的问题。
以生成视频为例,如果用视频生成模型去做短剧,最大的问题是成本问题。
比如,生成1分钟高质量视频,需要1小时八卡的英伟达最新GPU计算,成本非常高,没有办法适应大规模落地。并且传统开源模型,每小时的计算只能生成20秒视频,好一点的商用模型生成80秒。
而用商汤的SekoTalk一个小时计算,能够生成同样质量的1280秒的视频,而且人物一致性,口型对齐,长时稳定性这些关键维度也做得更好。
而且,我们最近专门针对对话场景进一步优化后,现在使用消费级5090显卡,在单个计算节点上可以实现1小时计算生成4500秒视频,完全突破了实时数字人驱动生成的红线,我们在技术上已经做好了大规模应用实时数字人的准备,我们马上也会发布这样一个产品。
这些重要的进步背后都源于商汤在算法、系统、模型、架构多层面的联合创新。
首先在算法上面,我们使用了自研的Phased DMD蒸馏技术,将原来的100步的扩散过程合并到4步就能够完成,而且整个过程是基于严谨的数学推导,保持了很好的合成质量;
然后,通过模型架构创新,提升1.5倍速度;
最后,我们系统和模型的联合计算优化,进一步提升70%性能,加在一起,我们实现了64倍的速度优化。
这个产品已经可以体验和使用了。
SekoTalk免费在线体验:https://sekotalk.com/
NEO架构项目网址:https://github.com/EvolvingLMMs-Lab/NEO
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!





京公网安备 11011402013531号