2025.07.29
本文字数:8067,阅读时长大约9分钟
作者 |陆彦君 吴一凡 何昕晔 吴洋洋
机器人开始成为今年世界人工智能大会(WAIC2025)的主角,这是WAIC自2018年首次举办以来的第一次。
无论在WAIC现场哪里,机器人都是明星。
包括智元、宇树科技、银河通用、灵初等在内的几乎所有人形机器人公司都有在上海世博展览馆设立展台,展示它们的机器人在过去一年中取得的进展。与一年前比,这些机器人的本体,即身体硬件变化并不大,形态依然以双足人形、轮式人形为主,但软件部分开始出现范式变化——让机器人可以从遥控进化到自主行走。
包括智元、腾讯、商汤、生数科技等在内的公司,都推出了应用于指导机器人行动的感知行动模型,或用于预测下一步环境状态的世界模型,这些模型都意在解决机器人与环境的交互问题,帮助机器人决定如何在真实物理世界中行走和执行动作。其中腾讯的加入可能是今年机器人领域的最大变量,它已在该领域投入7年,比现有多数人形机器人公司都久。
相较而言,大模型公司则低调很多。百川智能和零一万物都没有参加这次大会;MiniMax和智谱除了设展台,没有新品发布或产品进度更新;月之暗面则与另一家公司共用展位——只占据了整个展台的一个侧面;只有阶跃星辰在展会期间推出了新一代多模态模型Step 3。
月之暗面的展台格外简朴。
参与WAIC2025的模型类公司中,有一半公司在展示其模型对构建agent类产品的支持能力,阿里巴巴、腾讯、百度、亚马逊都给出了它们的agent开发平台,以及可以帮助普通用户低代码地开发一个应用程序的AI Coding工具。另一半,就是在为机器人提供具身智能模型。
大模型公司的低调与这个领域的节奏有关——它们基本都在今年上半年交出了追赶DeepSeek的成果。就在WAIC2025举办前一个月,国内估值最高的两家大模型公司MiniMax和月之暗面都刚刚才发布其类DeepSeek的模型。其中MiniMax一步到位发布了类DeepSeek R1的推理模型M1,月之暗面则发布了类DeepSeek R1前身——DeepSeek V3——的模型K2。在DeepSeek的模型矩阵中,V3是个普通的预训练模型,而R1是基于V3进行强化学习后得到的有推理能力的模型。月之暗面内部人士对第一财经「新皮层」称,月之暗面将在接下来的某个时间推出类R1的推理模型。
「中国前三的大学有五个」的故事又上演了。
MiniMax和月之暗面目前正在争夺开源模型社区的第一名。两家公司分别声称,它们在开源社区取得了优异成绩,接近或超越DeepSeek。其中,MiniMax称其M1模型目前在Artificial Analysis榜单的开源模型中排名第二,仅次于DeepSeek R1。而月之暗面称,其K2模型的综合表现在另一个名为LMArena的榜单中已经超过DeepSeek R1,成为开源模型的首位。
目前阶段,大模型领域最具代表性的两家公司的精力都在争夺P(Professional)端专业开发者的注意力,而非C端。这可以解释大模型公司为什么在WAIC2025上没那么高调,简单说,大模型竞赛没有熄火,只是战场转移了。
值得关注的8个新品
智元发布世界模型「Genie Envisioner」
7月27日,智元机器人发布世界模型「Genie Envisioner」(以下简称 GE)。智元方面表示,这是行业内首个真正面向真实世界双臂机器人的世界模型。GE平台把「预测—控制—评估」环节整合到了一起,标志着机器人从被动执行指令,转变为主动「想象—验证—行动」。通俗来说,该模型让机器人可以提前在脑海里预演动作,再正式动手操作。
搭载智元最新模型的机器人可以先后完成做三明治、倒茶、擦桌面、使用微波炉加热、流水线装箱等五项半身移动任务,智元表示该平台未来还会接入更多传感器,支持全身移动与人机协作。
除了软件升级,智元精灵系列即将发布下一代机器人本体G2。智元机器人合伙人、具身业务部总裁姚卯青预告,G2在运动精度、场景适配性上全面升级,具备原生数采能力。
生数科技发布具身基座模型Vidar
7月25日,视频生成领域初创公司生数科技宣布,与清华大学联合发布具身视频基座模型Vidar。生数科技称,Vidar是全球首个基于视频模型实现视频理解能力向物理决策能力迁移的模型,能解决具身智能行业数据匮乏、采集成本高的问题。
视频理解部分,生数用具身视频数据对生数的视频模型Vidu进行二次预训练,得到的基座模型具有较高的泛化性。在具体任务的执行过程中,视频模型先预测出完成指定任务的动作视频,再经过逆动力学模型(IDM)解码为机械臂动作。
商汤科技发布「悟能」具身智能平台
7月27日,商汤科技发布「悟能」具身智能平台。该平台的核心是一个世界模型,让机器提前「想象」和「理解」周围环境的AI系统。在现场演示中,搭载该平台的机器人可以在讲解PPT时自动翻页、总结、与观众互动答疑。该平台还能理解三维空间与时序。用户输入提示词,比如「在厨房区域的架子上找东西」,搭载该模型的机器人就能理解空间、路线、动作,然后生成正确的动作方案,完成任务。
阿里巴巴公布夸克AI眼镜研发进展
7月26日,阿里巴巴公布了首款自研AI眼镜的研发进展,该产品已完成研发,预计将于年内正式发布。
夸克AI眼镜具备通话、音乐、翻译、会议纪要等主流功能。在此基础上,该产品将融合阿里巴巴及支付宝生态:具备通义千问大模型和夸克最新AI能力,还支持高德导航、淘宝比价、飞猪商旅提醒等。例如,研发团队联合高德地图开发了适配AI眼镜的近眼显示导航系统,适用于骑行、步行等移动场景。
在设计方面,夸克AI眼镜将从美观、舒适度、续航、拍摄清晰度等方面提升使用体验。「市面上现有产品多存在佩戴不适、续航短、AI交互弱等问题,并没有让AI眼镜真正进入大众消费领域」。阿里巴巴智能信息事业群终端业务负责人宋刚透露,除了融合阿里巴巴自有生态,夸克AI眼镜将会联合眼镜品牌,从技术、渠道、服务以及C2M定制能力的整合,解决用户体验的瓶颈。
腾讯发布混元3D世界模型
7月27日,腾讯在大会上正式发布并开源了混元3D世界模型1.0。该模型简化了3D场景的构建流程,在用户输入一句话或一张图片后,在几分钟内生成360度的3D场景。用户不仅能静态查看,还能在场景中自由移动浏览。
混元3D世界模型生成的太空场景。
模型还支持导出标准化的3D Mesh资产(3D网格资产,是3D数字内容创作与开发中的核心基础元素),兼容Unity、Unreal Engine、Blender等主流工具,方便用户二次编辑场景内元素,可以应用在游戏开发、VR、数字内容创作等领域。
阶跃星辰发布多模态推理模型Step 3
7月25日,阶跃星辰发布新一代基座模型Step 3,公司称其为首个全尺寸的多模态推理模型,并计划在7月31日面向全球开源。CEO姜大昕表示阶跃今年的收入目标为10亿元人民币。
Step 3的主要优势在于对国产芯片的适配。公司副总裁朱亦博表示,国内开源模型中,DeepSeek的V3模型主要针对H800芯片优化,阿里巴巴的Qwen3混合推理模型主要针对H20芯片优化,而Step 3针对国产芯片的特点开发,在推理时不要求过高的算力和显存,可以更好地发挥国产芯片的性价比优势。
本次发布会上,阶跃星辰还宣布联合多家国内芯片厂商发起成立「模芯生态创新联盟」,联盟首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。目前,华为昇腾芯片已实现Step 3的搭载和运行。
千里科技发布智能座舱Agent OS
7月26日,千里科技宣布联手阶跃星辰、吉利汽车共同发布智能座舱Agent OS,该产品还未正式推出,目前为预览版。这是一套人—车互动系统,具备自然语言交互、长短期记忆(端云一体)等能力。千里科技称,智驾能力的提升将释放用户的车内时间,未来座舱可能会成为第三生活空间,承载用户的影音娱乐、内容创作、游戏互动等需求。
这款产品的底层模型是阶跃星辰的多模态大模型和端到端语音大模型。在演示中,用户不仅可以通过自然语言与车机问答交互,还能操作软件。结合记忆功能,该系统可以执行「导航到上次去过的餐厅」等指令。这款系统还加入了车内VLM(视觉语言大模型),可以识别到车内人员的状态,完成拍照等操作。
快手可灵发布「灵动画布」功能
7月27日,快手宣布在其视频模型可灵中上线「灵动画布」功能。可灵AI产品及运营负责人李杨称,灵动画布的产品定位是创意工作台。「灵动画布」模式的交互界面为无限可视化空间的画布模式,用户可以随意拖拽,并支持图文内容混排。「灵动画布」还支持多人实时协作,不同创作者可以在该模式下协同创作、素材共享。李杨称,「灵动画布」可以实现从单一素材到创作全链、从个人创作到团队协作的转变。
本次发布会上,可灵还宣布更新多图参考功能,升级后在角色、主体和场景一致性、动态质量、画风保持等方面有所提升。可灵还新发布局部参考功能,可精准指定图片参考区域(如人脸、服饰)。此外,李杨称目前可灵的用户数量已经达到4500万。
值得一听的行业洞察
具身智能
星动纪元创始人兼CEO陈建宇
人形机器人真正做到大规模、高产值的商业化,差不多在今明两年。规模化生产的标准线是万台,这不是指整个行业,是指我们一家,(达到)这个数量级基本上就是头部的工业机器人公司。
宇树推出了3.99万元的人形机器人,这是因为它面向拳击、文娱等用户找到了商业化场景,它的降价不会对整个行业普遍产生压力。星动纪元正往工业方向探索,我们跟宇树做的不算同一类事情,我们是全尺寸,更大,性能更强,有双手双脚,需要它真的干活,能够做灵巧的操作。
智元机器人合伙人、具身业务部总裁姚卯青
过去一年,我们在实践中得到了很多苦涩的教训:
第一点,机器人还是要回归到执行器本身,高频跟随、高精度跟随以及低延迟的执行器至关重要。我们还需要高精度高分辨率的力控,实现工业场景里的作业。
第二点,传感器不仅需要在多维度信息上有效融合,在标定、时间同步以及多机之间的一致性也非常关键。
第三点,本体的构型很重要。算法与模型再强,也无法替代一个高自由度灵活本体带来的优势,我们希望本体将越来越逼近人类的构型,同时提供更灵活的自由度。最后,机器人本体中传感器、软件链路上的各种误差会层层叠加、不断放大,最终变成算法难以承受的痛点。
这正是我们在迈向大规模应用的过程中,必须直面的核心挑战之一,也是我们为什么要执着追求量产一致性的根本原因。
前腾讯混元大模型技术负责人、Video Rebirth CEO刘威
世界模型需具备模拟、预测和探索三大核心能力。世界模型和多模态模型的区别在于:
第一,多模态模型擅长理解和生成内容,但缺乏对环境的整体建模与预测能力,属于感知智能,世界模型则追求对环境更深的因果认知与推演;
第二,多模态模型的交互是被动响应,需要由用户触发,世界模型可在内部生成交互式环境,主动预测变化;
第三,多模态模型为一问一答的单步输出交互,世界模型则支持长序列的行动规划。
亚马逊应用科学、前沿人工智能与机器人部门负责人陈曦
得益于最近一轮AI 与机器人热潮,愿意在机器人硬件上投入资源的公司变多了,我们有了更多可用的实体机器人平台,可以在上面运行模型、采集数据。但归根结底,没有什么比让机器人在真实环境中自主运行、亲自采集的数据更有价值。
Physical Intelligence(Pl)联合创始人、UCBerkeley副教授Sergey Levine
未来我们可以将强化学习技术融入到VLA模型中,以提升鲁棒性与性能。VLA模型拥有广泛的泛化能力,而基于强化学习的专家系统能在特定任务上达到极高的熟练度。通过将高效的强化学习方法生成的数据「蒸馏」进通用模型,我们有希望推出更可靠、性能更强的机器人系统。这类研究仍处于早期阶段,但我认为它非常有前景。
Intrinsic(Alphabet)科学与Al事务负责人Stefan Schaal
机器人发展的关键在于路径选择:是追求快速落地的专用机器人,还是深耕通用型机器人的长远目标?
现在,在工业领域专注于特定任务,会越来越频繁地应对所谓高混合、低产量(High Mix, Low Volume Production)的生产挑战,频繁的变化要求模型快速适应,在半个小时内重新训练模型勉强可以接受,但如果需要数小时甚至数天,就难以忍受。短期内的泛化与基础模型构建至关重要,关键在于权衡要走哪条路。我认为所有方法都合理,多元并行的路径探索要优于单一模式。
蓝驰创投合伙人曹巍
我们走访海外机器人团队的时候,发现他们的产品迭代速度比国内的平均速度慢50%左右。中国跑出来的具身智能团队很有可能是全球最好的企业。
美团龙珠合伙人王新宇
中国具身智能领域不是泡沫太大了,反而是泡沫太小了,我们投的钱太少了。中国有硬件优势,有望引领这个产业的发展,我们应当投入更多的钱。
光源资本创始人、CEO郑烜乐
未来一年左右的时间,整个具身智能行业都要回答一个问题:形成单位泛化能力所需要的成本,是不是符合规模经济的特征?你多长时间可以完成产业端落地?
Agent
Flowith市场负责人拐子
首先我认为一个合格的Agent要在技术定义上满足四个要素:主动思考、规划路径、调用工具、长期记忆——用户可以通过这几点判断一个所谓的「Agent」是否符合标准。通用Agent在这个基础上更进一步,能处理各种事情,甚至要能感知自然环境、和物理世界交互。
Flowith最终想做的是一个AI时代的终极创作工具,Agent、画布、知识库,其实都是我们产品当中的一环。单就Agent而言,我们想做的是创作领域的Agent,并非通用Agent。通用Agent要有和物理世界交互的能力,比如你让它给你点外卖,它不仅要帮你下单,还要送到你面前来,在理想情况下,就像《钢铁侠》里的贾维斯一样。而我们所定义的「创作」领域,既包括用AI撰写研报、制作PPT、制作网页、拍摄短片等专业场景,也包括发朋友圈和小红书、日常聊天等生活化的文字表达,还涉及跨模态创作。用户可以在移动端、Web端、PC端完成这些事情。
腾讯云副总裁、腾讯云智能及腾讯优图实验室负责人吴运声
to B和to C的智能体开发平台差异很大。to B在于它有非常多严肃的场景,我们需要用非常多的手段保证严肃问答的准确率以及引用的正确性;to C的特点是要让用户使用起来很方便,即便能力差一点。
关于Agent的记忆机制,如果仅机械存储用户过往(如一周或一个月)的全部聊天记录,并在后续交互中全盘调用,会因大量一次性、临时或无关信息的干扰而影响效果。因此,如何从长期记录中提炼出对后续问答真正有价值的内容,是当前短期与长期记忆研究中需要不断攻克的关键方向。
Lovart CTO陈志博
生成式AI会大幅扩展个人能力边界,形成「超级个体」, 让普通人无需设计、编程等专业背景,也能完成高质量创作。
阿里巴巴国际数字商业集团AI业务副总裁骆卫华
面向生产环境的Al Agent对输出质量有很高要求,通用Agent几乎无法满足。垂直场景对特定关键数据识别和分析精度的要求远超头部模型直出结果。除模型能力,Agent的可用性对工程框架、底层Al Infra的要求也很高。
大模型
生数科技CEO骆怡航
视频生成需要保持生成效果的一致性,这一诉求与应用场景深度相关。对大众而言,用手机拍摄的视频多为日常记录或自娱自乐,对画面连贯性、元素稳定性的要求较低。但在广告、动漫、影视等商业与专业创作中,一致性是不可妥协的基础——人物形象、核心道具、场景氛围等要素必须在全片所有镜头、所有时长里保持连贯,甚至每一帧的细节都需符合设定逻辑。一致性是实现视频生成商用的前提,若无法满足,相关技术便难以在产业级场景中落地。
视频生成的爆点不会突然出现。在广告和动漫行业,AI视频的渗透率在逐步提高,2到3年后可以实现全流程AI化;影视行业到明年可能有30%至50%的AI渗透率。长期来看,在5到10年后,所有内容和文化相关产业可能会完全实现「生成式AI化」,到那时,AI将成为创作的常规工具,「内容是否由AI生成」不再是关注的焦点。
可灵AI产品及运营负责人李杨
当前视频模型还正处于快速迭代阶段,3个月或半年后,模型性能和当下相比会有明显差异。AI工具产品需要在模型能力和用户需求之间找到平衡,既要不断探索模型能力的边界,也要满足用户的实际需求。
AI产业
光源资本创始人、CEO郑烜乐
创业公司最大的机会是在模型的水面上。如果你是礁石,可能会被淹没,但是如果是船,模型能力上涨,你也会上涨。怎么变成船?我认为有很多的方法,有专业数据的循环、对场景的理解(指对工作流的拆解)、独特的交付方式等等。在大厂的射程外也是非常重要的。
2025年上半年,中国的AI投资热度在大幅度提升,融资额同比增加45.3%,投资事件数同比增加59.9%,财务投资人占比58.6%,又回到了主流。大家开年以后都在跑,很多项目都在抢,很多人开始要抬估值了,跟去年完全不一样。现在这个市场给我们的感觉是非常像移动互联网09到14年的时候。
九合创投创始人王啸
在中国做AI应用要有闭环的数据,这样才能产生独立应用的机会。在一些相对垂直但又不太垂直的行业,形成大量自有数据,而且这个数据随着用户的增长对基模能力的提升是显著的,就能建立壁垒,也不会被基模公司吃掉。编程的数据太公开了,你能做,别人也能做,大模型公司做的更有优势。
云启资本合伙人陈昱
目前国内比较确定的机会还是在视频领域。还有就是上一代SaaS的重新洗牌——在中国大模型的加持下用AI全部重新做一次,更便宜、更智能、效率更高。
通用型的AI应用特别火热,问题在于最后基模公司肯定会自己下场做,而且它们有巨大优势,因为一旦上量,总的token成本会非常可怕。我听说Cursor的毛利是负的,别看它现在这么厉害,到后面也会面临盈利的挑战。
美团龙珠合伙人王新宇
AI应用的口子,我个人体感首先是太难了,比具身要难。这个行业难投,我们希望创始人懂技术,此外也要懂产品、懂年轻人,或者懂新的地域(现在更多是面向海外市场做AI应用)。
君联资本联席首席投资官葛新宇
我们要换一个思维来看,AI发展中的一些「脏活苦活」不是大厂和基模公司会下场做的,比如数据标注,适合一些没有太多产业背景、大额资金投入的创业者。如果还能结合具体的细分场景,再跟上技术发展的节奏,是更好的。
蓝驰创投合伙人曹巍
国内做大B生意,核心成功要素的构成是非常复合的,不是一个纯产品、纯技术驱动的生意;反而一些非常工具类导向的小B生意更好做,这也是国内最市场化的生意。我们也尝试着做了一些AI应用方面的投资,应该讲做国内市场的都活得很苦,卖掉的基本也是成本价卖掉的。我们也有一些卖掉的公司,创始人去了某大厂做战略规划。此外我还认为,当下模型侧还有很多能力没有被挖掘出来,模型还要再迭代一波。
蓝色光标CEO潘飞
目前,营销行业正在从工具效率革命走向生产模式革命。最终,可批量化的内容将实现AI全自动生产,而有人性洞见的内容会更有稀缺价值。AI发展当前的进度仅加载10%到15%,未来将诞生AI时代原生的营销公司。
无问芯穹发起人汪玉
AI基础设施的能效评价指标已随技术演进发生变化:在AI 1.0时代,核心指标是「算力」(TOPS),通过垂类数据训练垂类模型,即可支撑简单任务;而进入AI 2.0时代,「token」成为核心生产要素。目前,端侧应用的算力需求与现有能力之间仍存在10倍左右的差距,云端的算力使用效率也有进一步提升的空间。
微信编辑| 雨林
第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com
(注:我们会对线索进行核实。您的隐私将严格保密。)