当前位置: 首页 » 资讯 » 新科技 » 正文

超大参数量具身VLM开源:首创DPPO训练范式,模型性价比天花板

IP属地 中国·北京 机器之心Pro 时间:2025-11-14 20:12:55



机器之心发布

机器之心编辑部

最近,国内具身智能的开源 VLM 登顶了行业之巅。2025 年以来,具身智能的行业研发力似乎也迎来了井喷式爆发。

11 月 13 日,北京人形机器人创新中心正式开源了具身智能 VLM 模型 ——Pelican-VL 1.0,根据介绍,该模型覆盖 7B、72B 参数规模,被称为 “最大规模的开源具身多模态大脑模型”。



项目链接:https://pelican-vl.github.io/Github:https://github.com/Open-X-Humanoid/pelican-vlHuggingface:https://huggingface.co/collections/X-Humanoid/pelican-vl-10Modelscope:https://modelscope.cn/collections/Pelican10-VL-1036b65bbdfe46

官方资料显示,其核心优势在于深度整合海量数据与自适应学习机制:并在由 1000+ A800 GPU 组成的集群上训练,单次检查点训练耗费超过 50,000 A800 GPU - 小时;团队从原始数据中蒸馏出包含数亿 token 的高质量元数据以做训练基石。在基线基础上性能提升 20.3%,超过同级别开源模型 10.6%。根据测试,其平均性能超越 GPT-5 和 Google gemini 等闭源系列模型,成为了目前最强具身性能的开源多模态大模型 。



DPPO 造就 “VLM 快速高效提升”

简单来说,Pelican-VL 就像一名刻苦钻研的学生:每次训练循环都会 “看视频 — 自主练习 — 发现错误 — 纠正提升”,这得益于北京人形开创性的运用了 “刻意练习” DPPO(Deliberate Practice Policy Optimization)训练范式。



DPPO 模仿人类元认知的学习方式,通过强化学习(RL)探索弱点、生成失败样本,再进行有针对性的监督微调(SFT),让模型不断自我纠错和迭代进步。正如学生做错题后总结经验一样,Pelican-VL 能在训练中发现 “薄弱知识点” 并补齐,从而持续提高在视觉 - 语言和具身任务上的能力。通过这种机制,模型能够更准确地理解图像内容、语言指令和物理常识,在空间 - 时间推理和动作规划方面实现突破。更具体的如图所示,DPPO 框架包含两个主要阶段:强化学习(RL)和监督微调(SFT)。首先在 RL 阶段通过多样化奖励机制和难度过滤,自动发现模型薄弱点,并对能力进行快速提升。之后进入 SFT 阶段,针对弱点数据进行知识扩展与模式对齐,通过蒸馏和数据构建进一步巩固模型能力。整个过程通过难度感知采样与滚动日志记录,实现 RL 与 SFT 的迭代循环,使得模型既能快速学习新技能,又能保持稳定性与全面性。

同时,凭借 DPPO,Pelican-VL 实现,成为同类具身模型性能最强。在以下具身特定能力方面大幅得到了提升:

多模态理解与推理能力:Pelican-VL 同时处理视觉和文本输入,训练时使用了海量图像、视频及跨模态标注数据。它不仅能准确识别物体,还能基于场景进行物理推理、空间关系理解和功能预测。例如,在封闭厨房或商超场景中,它能够分辨果蔬摆放、柜台位置等,并据此规划取物和放置动作。空间 - 时间认知:模型训练包含数万小时的视频和动态场景问答,使其具备了连续时序的理解能力。在处理视频帧时,Pelican-VL 能捕捉物体移动、操作步骤的时间先后关系,从而对复杂连贯的任务序列做出合理推断,比如判断 “先搬动哪个物品再操作下一个”。具身交互能力:在诸如物体抓取、导航、协作等机器人任务中,Pelican-VL 不仅能理解任务目标,还能输出细化的动作步骤和评估每步可行性。这意味着它在看到指令后,可以设计出机器人关节的移动轨迹、抓取点和操作策略。其多任务能力覆盖抓取、导航、人机交互等不同应用场景,体现出跨任务的强大泛化性。自我纠错与迭代学习:借助 DPPO 循环训练,Pelican-VL 具有 “自我纠错” 特质。每轮强化学习后,模型都会自动生成新的难题样本并进行再训练,如同不断练习和复盘。随着训练的进行,它的弱点被逐步修补,能力不断提升。这一过程类似 “刻意练习” 的学习范式,使得 Pelican-VL 在迭代中持续进步并达到与顶级闭源系统持平的表现。

开源 “大脑”,加速产业落地

这些改进并非纸上谈兵。北京人形团队在多项真实的具身任务上给出评测:在接触丰富的触觉操控(例如需要调整握力以抓取软物体)上,Pelican-VL 成功实现了闭环预测与实时调节;在以 “可供性(affordance)” 为核心的物体搬取策略中,模型能零样本生成可行的操作方案;在长程任务规划方面,一个统一大脑也能协调多台机器人完成级联任务。总体上,论文报告称相较基线模型,在空间理解和时间推理等能力上出现显著提升,并在若干公开基准上超过了部分 100B 量级的开源系统,甚至接近一些闭源模型的水平。





同时,团队还在九个维度的具身智能分类体系中,对 Pelican-VL 的各项技能进行了评测,如下雷达图分布显示,各项指标均匀、均衡且在关键维度上表现突出。









粗体数字和带下划线的数字分别表示最佳结果和次佳结果。符号 “†” 标记的结果与官方报告存在差异或异常偏低,这可能是因为官方评估采用了模型专属提示词(模型对提示词较为敏感),而本研究的结果是在统一实验方案下获得的,以确保对比的公平性。星号 “*” 表示结果来源于官方渠道。黄色单元格标记的是本文提出的 Pelican-VL 1.0 模型。

对产业与研究界而言,Pelican-VL 有两层现实意义:一它提供了一套 “视觉理解 → 长期规划→物理操作 ” 串联的可复用训练范式,降低了在机器人中使用 VLM 的门槛;二是团队选择开源基础模型和推理代码,意味着其他实验室或企业可以在这个 “脑” 上做定制化训练,加速落地探索。

北京人形团队也在讨论中指出,尽管取得进步,但高质量具身数据的稀缺性、评测基准的局限以及如何安全、可靠地在人类环境中部署仍是下一步需要直面的挑战。

读者如果想把这则研究的影响具象化:想象家里的助手机器人不仅能识别碗盘在哪儿,还能判断 “这个杯子能用来拿汤吗?”、“这个苹果该怎样轻拿轻放才不挤坏?” 并在实际失败后自己学会改进 ——Pelican-VL 正是在朝这个方向迈出一大步。

国际模型对比:技术路线与应用场景

Pelican-VL 代表了国内具身智能的一种端到端解法,与国外一些知名模型在策略和场景上各有侧重。

对于国外 AI 大厂:

英伟达团队在 25 年 3 月提出来 Cosmos-Reason1 是 NVIDIA 发布的专为物理智能(Physical AI)打造的多模态大模型,包含 8B 和 56B 两种尺寸。模型在空间、时间和基础物理三大常识范畴下,融合视觉与文本信息,具备强大的物理常识推理和具身推理能力。采用 ViT-300M 视觉编码器、Mamba-MLP-Transformer 主干,以及多阶段训练流程(包括视觉预训练、通用与物理智能 SFT、强化学习),配合 1 亿级多模态样本和千万级具身与物理常识数据。在物理推理、空间认知等多项基准测试上远超现有主流模型,并开源了权重与代码。

Google 的 embodied reasoning 以 Gemini Robotics-ER 模型为代表,核心目标是让 AI 能够在真实物理环境中理解、规划并做出决策,主要应用于机器人领域。Gemini Robotics-ER 具备多模态推理能力,能够处理物体检测、空间理解、抓取预测和三维轨迹规划等任务,并将视觉感知转化为机器人可执行的高阶指令。模型支持多步规划和环境反馈动态调整,利用如 ERQA 数据集等基准评估其现实任务能力。此外,Google 探索 “内心独白” 机制,让机器人在动态环境下能自我思考、实时调整,实现高鲁棒性的具身智能。相关技术已集成于 Google AI Studio、Gemini API 和 Vertex AI,为自动化生产、导航、操作等机器人实际应用提供支持。

而 GPT-5 是通用视觉 - 语言大模型同样具备强大的图像理解和跨模态推理能力,但它们原本并非专为物理执行而设计。GPT-5 可以回答视觉问题、生成图像描述,但缺少与机器人硬件对接的控制层。

相比国外闭源模型,Pelican-VL 在国内开源模型基础上进行预训练,利用少量的数据和训练资源,即达到了相当的性能,甚至更好的性能,整体数据利用率达到了其他模型的 10 倍~50 倍。另外,因为 Pelican-VL 是开源的模型,可以赋能国内外具身行业。此外,在国内 Pelican-VL 也是性能最好的具身智能模型,相比于国内同类模型,平均提升了 10%+ 的性能。

结语

从搭建 “具身天工” 和 “慧思开物” 这一硬一软的通用平台开始,再到如今,以算法推动行业研发、以数据利用率加速模型迭代、以开源策略为产业落地夯实基础,北京人形似乎都在以一个更宏观的视角在探索具身智能的这条道路。这种 “平台 + 生态” 的布局,或许也将促进打破技术闭环与数据孤岛,更让具身智能从实验室的单点突破,走向产业链协同的规模化发展。

当越来越多企业借助开源工具降低研发门槛,当真实场景数据持续反哺模型进化,具身智能或许能真正加速渗透工业、家庭、物流等多元场景,最终让机器人真正具备 “感知 - 思考 - 行动” 的通用能力。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新