![]()
11月24日讯(记者 武静静)在资本与技术密集的具身智能赛道,百亿资金能否撬动人与机器人共生的未来?
11月20日举办的智源具身OpenDay"具身模型会客厅"现场,八位产学研领军者面对这个充满张力的设问,展开了一场关于战略抉择与产业路径的思辨。
手里有100亿元推进具身智能,这笔钱怎么花?
在圆桌分析的现场,主持人甲子光年创始人张一甲抛出了一个更具穿透力的问题:"如果手里有100亿元推进具身智能,这笔钱怎么花?""
中国科学院大学教授赵冬斌则幽默地将球传给了产业界的同仁:"这是钱的问题,给他们来回答(笑)。" 巧妙地预示了随后即将展开的精彩交锋。
"首先,100亿不够。"加速进化创始人程昊几乎无缝衔接,直言不讳地修正了问题的前提:"如果我只有100亿的话,我肯定不会自己埋头落地,而是找更多的朋友一起,比如投到智源研究院,吸引全球的研究人才,让他们可以心无旁骛地去搞比较长期的技术突破。"
智源研究院院长王仲远的积极响应。"我特别喜欢程昊总的这个回答,"他坦言,并进一步为这个数字提供了业界标尺:"100个亿其实也就听起来很多,实际上也不多,也就10亿多美元。GPT-3真的要开始训练的时候,微软投资的规模也就是这个量级。"
"100亿其实并不重要,"北京大学助理教授王鹤直言,他将"愿景引领"置于纯粹的资金之上,强调:"重要的是你怎么能够用你的事业和你坚定的进步,吸引到人才加入。我们不希望大家为了钱每天睁开眼睛,而是为了一个未来人与机器人共生的世界。"
自变量创始人王潜将话题拉回了最现实的竞争维度,他的答案简洁而犀利:"我首先把市场上能吸纳的好人才都吸纳过来,这是第一位的。其次肯定是算力和数据。"
智元机器人合伙人罗剑岚展现了其宏大的技术构想:"我会去构建世界上最大的能够自我进化、自我闭环的数据系统。"他点出了其中的关键意义:"100亿可以说很多,也可以说不多,但关键是,第一个投入百亿去做这件事的个人或机构,现在还不存在。"
清华大学助理教授星海图首席科学家赵行renwei :"我也会去构建一个最大的‘data engine’,目标是把物理世界的信息全部数字化下来。"
最后,招商局集团AI首席科学家张家兴从模型架构的层面,为这场讨论提供了一个收敛的方向。他表示:"我是希望能够设计出属于我们自己的、具身智能的‘黄金式模型’,然后进行大规模预训练,让能力真的能够scale up上去,找到我们最正确的那条路径。"
架构之争:具身智能的"Transformer"终局思辨
面对具身智能未来也会收敛到某一种统一架构,每个人也给出了自己的思考。
中科院大学教授赵冬斌认为,"目前具身模型的训练方法比较多样化,"他指出,通过预训练、后训练等多种方式,模型已在多项任务上展现出通用能力。"未来有可能会出现一个收敛的单一模型,但也可能继续保持模型多样化的路径。两者皆有可能。"
那么,最有可能的收敛路径是什么?招商局集团AI首席科学家张家兴率先描绘了一幅颠覆性的蓝图。"就像人类智能的演进过程:我们是先有动作能力,再发展出视觉,最后才诞生语言。"他犀利地指出,当前主流的VLA(视觉-语言-动作)架构在视觉和动作之间插入语言模块,并不符合人类操作的本质逻辑。"当我们开车时,可以一边说话一边驾驶,这说明视觉和动作之间本身就有直接通路。本质上,我们期待的是大模型领域能够实现一次范式转换:从过去三年一直坚持的‘language first’,转向‘vision first’或‘vision-action first’。"
清华大学助理教授赵行对此深表赞同。"我们确实需要一个与大语言模型平行的基础模型,它更有可能是一个‘大型行动模型’。"他阐述道,这个模型应建立在视觉基础上,再融入语言能力,这与生物进化规律高度吻合。他进一步点出了具身智能模型与大语言模型的关键区别:"大语言模型是开环的——用户提问,模型回答,流程就结束了。但具身智能不同,它不是执行单一动作,而是每执行一个动作,就立即获得世界反馈,随即调整自身行为。因此,它必须是一个能够与环境实时交互、持续调整的闭环模型。"
然而,收敛之路并非一蹴而就。智元机器人合伙人罗剑岚提出了"系统论"的视角:"智能问题更可能被一个完整系统所解决,而非依赖单一模型。这个系统包括VLA、世界模型、强化学习等核心要素,整合在一起形成一个真正的闭环系统。"
智源研究院院长王仲远则从数据基础的角度给出了收敛的前提。"这种模型所需要的数据量非常非常大,"他坦言,"它可能需要等到更多机器人真正落地……出现‘具身智能的互联网’之后,有了这样的数据基础,才有可能出现更好的大一统模型。"尽管路径漫长,但他强调:"从长期来看,我相信这是一个我们必须突破、必须解决的关键问题。"
北京大学助理教授王鹤将挑战指向了数据瓶颈:"今天我们若想研发‘行动优先’的模型,面临的核心问题是:全球可能仅有约一千台、甚至更少的人形机器人处于前沿场景中运行。如此少的数量,远不足以支撑我们探索出成熟的架构与模型。"他提出,短期需依靠仿真模拟,长期则依赖于"人形机器人口"的持续高速增长。
在讨论具体技术路径时,自变量创始人王潜提出了一个更本质的观点:"‘Transformer’这个说法可能有些误导性,它终究只是一种架构组件。就像建造大楼,Transformer可能只是砖块或钢筋,可以替换。更重要的是设计整座建筑的结构与功能。"他从语言模型的发展中提炼出两条核心经验:一是数据质量优先于数据总量;二是通用模型(通才模型)能捕捉到任务之间的"共同结构"或本质规律。他甚至做出了一个大胆的预测:"在不久的将来,真正主导的多模态模型,反而会是由具身智能推动发展的那类模型……反过来主导甚至取代我们今天所见的多模态范式。"
正如赵冬斌教授在最后所总结的:"输入模态远比互联网大模型丰富,输出也有多种实现路径。目前整个业界发展非常迅速,从学界角度来看,依然处于百花齐放的状态。"
而这正是爆发前夜的典型特征——在通往终局的路上,充满分歧的思辨,往往比表面的共识更能推动领域的前行。所有人都在期待,那个能点燃具身智能"ChatGPT时刻"的范式革命早日到来。





京公网安备 11011402013531号