雷递网 乐天 1月30日
商汤董事长CEO徐立博士日前在演讲中表示,这一波人工智能的浪潮得益于生产方式变化,第一个,从GPT走到scaling law;第二个,复杂的任务分解;第三个就是推理成本的急速下降。
徐立博士说,过往两年每个token的成本以280倍的速度在下降。
而当下,AI行业专业思维数据稀缺,互联网语料的价值已被消耗尽,模型能力的提升需要高度的思维数据,此外数据稀缺且获取代价高昂,且AI在处理长链条,复杂工作时,模型荣誉出现幻觉和逻辑错误,当下最好的模型的实际幻觉率依然高于10%,导致在严肃应用环境中无法依赖。
"2025年,大模型发展走到了新路口,原来的道路已走到了尽头,新的机会初现。”
徐立博士认为,未来的两年是AI竞争的关键时期,主要看AI的成熟度是否突破工业红线,落地生产环境,实现规模化商业闭环。而通过算法+芯片的深度联合优化,国产化芯片能迅速拉近与世界最前沿的差距。
以下是商汤董事长CEO徐立博士演讲实录:
徐立:为什么我们针对不同的AI的发展阶段,我们需要不同的推理。为什么需要专注做推理的人工智能模型?我的题目叫共塑芯世界,芯讲的就是芯片,世是一个泛称,是指模型。我觉得下一个阶段人工智能的发展,就只有说芯片跟模型的联动,它才能够走出合适的商业化的闭环。
首先,我们站在现在的这个路口,AI整个研究的范式也发生了一个巨大的变化。
我们这一波的人工智能的浪潮得益于两个核心的生产方式的变化,第一个,从GPT开始我们走到scaling law,大家会突然发现说,当你在做训练的时候,你投入资源的时候,你可以预测不同规模的投入下面它的人工智能的模型的性能,这是scaling law的精髓,就跨越不同的scal,它可以做预测,从而进入了一个大的capex的投入的竞争,所以大部分的人就是巨量的投入。
当这条路走到一个尽头的时候,或者说走到渐渐性价比没有那么高的时候,突然间大家发现说,在推理时刻给一个好的激励模型,它其实又能够继续做testing的scaling,也就是说在推理的这个过程当中,你给一个激励的模型,给一个判别模型,那就使得又有一个部分的延伸。甚至在这个过程当中,我们可以看到应用的推理它的架构发生了变化,它的训推,甚至是CPU、GPU的配比,内存的配比都会有这个变化。
但这个部分上也很快它的红利被消耗。因为行业里面能够给出好的reward model,也就是激励函数的这样的一个场景不多。所以接下来就会进入两条分化,一条走到一个大产业价值的闭环,就在垂直产业当中去找所谓的我们的很好的激励模型,形成价值闭环,这是一个迭代,更多的是切入的场景。第二条方向就是大家会探索新的不同的架构,,能够更好的用好我们现有的这样的一个数据。
当然这是面临的一个挑战。但实际上我们从很多的趋势来看,我们很容易发现说进入到真正行业应用的过程当中,已经有非常好的我们讲阈值条件。首先,我们人工智能进入到产业的第一个标准就是能不能超过人的水平。很多图灵测试或者说对于智能的定义本质上是在跟人比那条红线。当然,其实我们可以看到过往的这些时间当中,有大量的任务可以在垂直任务上远超人的水平。
有一个榜单叫做HLE就是human lastic exam,就人类最后的测试。当这些通用模型刚起来的时候,在这上面基本上分数是等于0的,但是经过非常短暂的时间,因为它有很好的这个叫激励函数reward model,它可以快速的走到现在60分。
所以说大家看到达沃斯上的很多的论断,在2026年底,在很多的地方上能够远超过人。我指的是说在通用智能的这部分的定义之下,有标准的答案的定义之下,它可以远超过人的能力。
第二,我们看到一个趋势是长程的任务的分解,就是说你把一个复杂的任务非常多步的一步一步的走,其实随着过往来讲,每过一年的时间,每过几个月的时间这个解决任务长度它是在一个非常高速的时速增长,这也就是说任务复杂度的摩尔定律。而在这个摩尔定律之下,人类的很多复杂问题能得以解决,也是真正解决我们现实生活当中的问题。
第三个很重要的就是推理成本的急速下降。过往两年每个token的成本以280倍的速度在下降。当然我这里要加一个定语,就是在已知的开源的语言大模型上,这什么意思呢?就是在已知的模型上的架构优化可以达到两年280倍,但是会有层出不穷的新的模型。所以在这个过程当中,在新的模型的应用当中,也会带来新的挑战。
2018年有本书叫《Prediction Machines》预测机器,他讲的当一个生产要素的成本100倍下降的时候会走路到那个tipping point,就是那个转折点,这个转折点非常的重要就会带来很多行业的巨量的变化。可以看到说,电力在下降100倍的时候就进入了电气时代,通信的流量下降100倍的时候就进入到通信时代、移动互联网时代。
在今天,token的平均的水平下降的都是百倍,每个token的推理成本能不能带来一些质变?我相信这个是个必然的。
同样的,实际上人工智能其实已经是过往十几年的这样的一个历程,商汤有幸进入了早期的人工智能的这个产业。
我们可以看到,早年我们赋能整个大的是to B行业的这样一个过程当中,它的渗透率的上升是缓慢的。但是一旦到生成式人工智能,它具有通用性,它能够赋能的行业,包括解决通用任务的边界更宽的时候,其实我们可以看这根蓝线,其实它的成长的速率会非常快。这就马上会进入到一个非常重要的挑战,就是在行业应用急速增长的时候,当渗透入极速迭代的时候,推理有没有一个更加高效的方法。
当然了,从刚才走的那两条路当中,要解决下一个阶段智能从哪里来的问题,我们互联网的数据的红利已经用完了,本质意义上还是说在产业当中怎么去更好的定义我们的reward model激励函数。所以我们认为在行业当中,我们从前讲AI for science、AI for medical、AI for education。
其实在今天是一种新的融合的方法是叫AI in这个行业,原因是它的整个过程是跟我们这个行业的生产过程是紧耦合的。
我们要构造出一种新的强化学习的逻辑,使得说它能够跟行业的生产非常紧度的耦合,从而完成用户价值闭环的叠加。而这个过程又和我们怎么去设计一个有效的生产环境,有效的推理系统有非常重要的要求。所以讲AI的基础设施在这个闭环的推广当中起到了一个很核心的作用。
我们走到商业化的过程当中一样的,虽然我们说模型取得了很多的优势,但是还是会有很大的挑战。第一就是模型的可靠性,今天在任何一个行业的模型,甚至在医疗行业,我们讲的模型还是没有100%的可靠性。那么它的模型的场景应用就需要我们来去重新定义和设计。
第二就是专业的这样一个思维链的数据。我们讲互联网的数据红利用完了之后,我们在很多垂直行业当中的高端的思维链、复杂的思维链其实还是缺乏的。
第三,但随着我们要进入到现实世界,比如说我们能跟现实世界进行交互的时候,我们对空间的理解,对空间智能的理解,甚至是我们现在讲说对于世界模型的理解还是偏不足的。
第四,这也是非常重要的刚才讲到推理成本,推理成本虽然高速下降,但是一旦进入到新的训练框架,新的模型框架的时候,你会发现一些新的问题。比如说我们现在讲原生多模态,再讲我们的视频模型,永远会发现说推理成本高起。所以怎么样能够最理解这个行业AI发展的推理架构、推理框架、推理芯片,其实是解决行业使用成本的一个很核心的要素。
很多的变革,解决这些问题其实来自于说底层的突破。刚才讲另外一条路是说其实硅谷有非常多的趋势是在于说,随着scaling往前走的时候,大家会讲现有的模型是不是over shoot benchmark,就针对benchmark有意无意的会往前做。所以现在的语言模型可能真正不是解决通用AGI的那条路,自然而然像伊利娅也好,李飞飞也好都会给出他们自己的答案,走向不同的跟现实世界交互的模型。包括视频模型,包括视觉模型,包括空间智能,我相信这条路当中一定会有一些比较让人亮眼并且非常突破性的这样一种模型架构,使得说我们能够非常好的被行业当中采用。
举一个例子,我们的多模态。很多人都说多模态不就是语言、文本、图像、视频3D融合起来训一个模型,听上去非常简单,但是一般的多模态的架构其实是先训完语言之后,再把其他的模态往上去整合,往往会带来这种拼接式的模型,其实最后没有办法真正意义上给出大家正确的答案。
比如说当时group 4推出来的时候,有一个人就贴这样一张图说,他确认group 4它不是世上最好的模型,因为它根本数不清楚这张图上的手有多少个手指。它是怎么操作的呢?它首先先识别出来这是一个手,然后开始用语言开始思考这个手有多少个手指。这种拼接式的,本质意义上它没有办法真正意义上原生的去解决这个部分上的问题。
就包含说我们讲空间智能的这种例子,有四个方块叠成这样的一个立体的图形,如果是俯视会怎么看,只是人很容易想出这样的一个空间结构,但是模型不行。因为对模型来讲,如果不给它图和我们之间的理解,不在原生的过程当中融合的话,其实语言模型你上下左右这四个字甚至可以随便颠倒,因为你不对世界有了解的情况下,那怎么样去做到原生的让它们这部分的融合,我觉得这在空间智能上是一个新的挑战和命题。
那么商汤在做什么?商汤的日日新的模型其实是从底层去解决我们讲的模态融合的问题,也许我们不是训练最好的语言模型,但是我们一定是训练融合度最高的多模态模型。我们在每个要素,每一个细胞当中都把语言、文本、图像、视频3D都打到我们的当中的一个神经元当中,也就是我们从每一个底层的结构它就是多模态的。
它这样的好处是这个之间的连接其实就会带来额外的信息量和价值,我们确信下一个阶段的红利来自于什么呢?来自于新的跨模态数据之间的联合分布这个部分的红利,也就是我们没有打通不同数据之间额外的信息量的红利,而今天我们推出我们不同的训练架构去解决这个问题。包括说我们去年开源了我们的NEO的多模态的架构,包括说我们把预测下一个文字和预测下一个视角当成同一件事情来做,predict next view,across the view。包括说我们一个全新的突破的训练范式,在这过程当中解决原生多模态的这样的一些内容。
在这个过程当中,我们其实会有很多比较有意思的应用,当你对世界有很好的了解的时候,你就能推动、理解和生成的统一。比如说我们去年也开源了面向智驾,面向机器人的具身世界模型,我们叫开悟3.0。这里有一个简单的例子,假设我们让这个机械臂模拟生成世界模型,然后去拼一个积木,拼成ACE3个字。然后我们让机器来开始做一做,左边是我们的模型生成的,它看到这张图之后,它自己进行思考,是个多模态的思考,然后开始去做这样的操作来做拼搭,最后就完整的能拼成这个字。而且这样的世界模型其实是可以用来驱动我们的真正的具身本体的。
但是有些时候如果对这个空间的不理解,对于这个智能的不理解的话,你其实没有办法完成这部分的思考,所以你会突然间看到有些模块突然跳出来,有些模块就没有了。虽然看上去每一帧都很漂亮,但并不解决它在物理真实性的问题。当然,有了视觉模型之后,你还可以生成一些跟现实世界的互动。这个给大家一个很有意思的想象。我当时想说,如果大家出去的时候拍的东西是用我们指定的一些设备来拍摄。
实际上你可以带回去让大家重新去游览这个地方,带大家去看世界,我们也做了一个世界模型带你去看世界。原来你只能分享静态的世界,到现在你可以比如说像这样动态的来进行交互,并且说我们在预测任何一个动作下的所有的接下来的可能性,从而给强化学习带来一个很好的空间。这就是如果说对世界有很好的理解,那你就能做很好的生成。
同样的,这样的多模态的大模型,最后能够也用到视频生成的连续性上。其实大家看,AI生成的很多视频有很明显的特点,第一,它是不同的镜头之间它是切近,也就是它很难做这种3D的运镜,很难保持长时间的这样的镜头传输,因为它对于空间的理解不够,我们的世界模型当时可以做跨11个摄像头之间的切镜,因为我们11个摄像头的3D结构是有的。
在这个基础之上,我们做的时间和空间之间的一致性的时候,就可以非常适合聚集的这样的一些内容。我们把这个能力放到了我们的cycle的平台上,在短短三个月的时间,我们吸引了超过30万的创作者在我们的平台之上。可以看到有很多东西,其实镜头的一致性,包括说人物的前后的一致性和对口性,这是我们的模型的一些核心优势。更多的内容可以到我们的平台上去看。
以上所有的内容,其实对于推理的要求会非常的高。因为大家会发现说这些模态其实跟原生的当时的文本模态还有很大的差别,推理的成本又会高起不下。我想说,只要说芯片是围绕着模型,而模型是适配到芯片上的,我们能够做到真正意义上的降成本。芯片它其实不是论斤卖,传统在训练当中问一个P多少钱的这种模式,可能在未来它不太会成立。
但是我们要问的是解决这件问题到底要花费多少钱?举例子,我们解决视频生成的过程当中,我们把国际上最好的卡和我们国产的GPU芯片来做比较,我们发现国产GPU芯片稍微慢一点点,但是它也能够做到视频的实时生成。什么概念呢?一分钟的视频就用一分钟来生成。
在这样的一个过程当中,它的距离使用就会非常的近。这并不是因为国产的卡已经达到了国际上的GPU芯片的同样的算力,而是在于说架构的优化,以及专注在这样的一个推理任务上。
我在想说商汤的是解决三位一体的问题,就是我们把我们的大装置跟我们的模型以及跟我们应用联动,而曦望的token一分钱的这样一个愿景,以及推理的能力是使得补齐我们三位一体一个很核心的这样一块板,从而使得说我们真正意义上可以从物理上同样的去降低我们的推理成本。
实际上我们知道说,行业里面当我们一旦谈论到某件事情的时候,往往是这个事件需要值得被关注,并且说需要花力气去解决。今天我们每个人都在谈论推理成本,这说明目前的推理成本降的不够低。我们在进入电气时代的时候,我们不会去谈电力的成本。我们进入通信时代的时候,我们不会去谈通信的成本,只有当要素变革的时候,我们才会谈论它。
今天,我们在AI来的时候,我们重新又去谈了电力的成本,说明什么?我们可能会迎来下一个电力的变革。我们今天谈了推力的成本,我们就会进入下一个算力的变革,所以说算力、电力整体的协同有可能是引爆我们的下一个十倍要素变化的这么一个点,从而是驱动我们行业的一个底层的变化。
所以我们希望跟我们的在座的各个合作伙伴一起去共同打造,在成本上,在性价比上极具优势的这样的一个板块,从而是使得这么一个极致的优化,能够服务好更多的客户和合作方法,从而推动我们在人工智能2.0时代的应用的百花齐放。
——————————————
雷递由媒体人雷建平创办,若转载请写明来源。





京公网安备 11011402013531号