【环球网科技综合报道】1月30日消息,宇树科技官方宣布,开源UnifoLM-VLA-0。针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练深度融合了文本指令与2D/3D空间细节,增强了模型的空间…
基于 Qwen2.5-VL-7B 开源模型,宇树构建了覆盖机器人与通用场景的多任务数据集,并开展持续预训练。 在宇树 G1人形机器人平台上,宇树构建了覆盖 12 类复杂操作任务的高质量真机数据集,并基于此…
大模型UnifoLM-VLA-0在多个空间理解基准上的能力较基础模型有显著提升。
作为一款面向真实机器人操作场景的“智能基座”,LingBot-VLA实现了跨本体、跨任务泛化能力,并大幅降低后训练成本,推动“一脑多机”走向工程化落地。 长期以来,由于本体差异、任务差异、环境差异等,具身智…
其方案摆脱了机器人以往依赖外挂桌面显卡进行计算的模式
这一框架可用于集成额外文本、语音和视觉等多种模态。
官方称其扩展了 VLA 模型通常使用的感知和学习模式集,所以也可以称其为 VLA+ 模型。 这点则是延续了 Phi 系列模型在视觉和语言理解方面的优势,通过深度多模态编码器将图像信息与自然语言输入映射到统一…
01/20 14:04
01/20 13:53