11月14日,由模力社区、机器之心主办的「虚实共振:模型×终端技术沙龙」在北京圆满落幕。本次沙龙紧扣具身智能这一产业高地,聚焦“模型×终端”的深度融合,汇聚来自产业界、投资界的多位专家代表,从世界模型构建、VLA 技术突破、真机评测标准到数据驱动范式等维度展开了前瞻性探讨。活动不仅全景式展示了当前技术落地的关键路径,更为构建模型与终端协同演进的未来生态勾勒出清晰的演进图景。
![]()
嘉宾云集,共话行业发展
![]()
上海张江科学之门科技发展有限公司副总经理 管凤华
活动伊始,上海张江科学之门科技发展有限公司副总经理 管凤华作为主办方代表进行推介。她介绍,张江模力社区作为上海人工智能产业的核心集聚区,依托张江科学城三十余年的科创基础,是国家参与全球科技竞争的重要引擎。其三大先导产业规模达 4700 亿元,占上海市 GDP 四分之一,汇聚超 2.4 万家企业与众多高新技术主体。社区聚焦垂类人工智能,构建全栈式产业生态,涵盖算力、模型与语料三大要素,并通过多层次政策支持,包括首年百万算力补贴及最高两千万专项扶持。地理上实现“10 分钟产业触达、5 分钟生活配套”,并建设 AI 小镇服务中心,推动技术验证与商业应用。结合青创政策、全周期金融护航及水绿交融的城市环境,张江致力于打造有温度的科创高地,助力企业与人才共创未来。未来,模力社区期待与更多企业携手同行,共建开放协同、繁荣共生的产业生态,共同推动人工智能技术创新与产业跃迁。
![]()
北京极佳视界科技有限公司合伙人&副总裁 毛继明
北京极佳视界科技有限公司合伙人&副总裁毛继明先生指出,世界模型是构建物理世界通用智能的核心基座,极佳科技在世界模型和具身大脑上的深厚积累就是要成为物理世界通用智能的引领者,成为物理世界的“OpenAI”,机器人时代的“苹果”。具身智能发展可分为三阶段:从硬件产业链成熟,到通用模型解决“通用大脑”问题,最终实现机器人具备物理世界认知并大规模应用。物理世界通用智能需要融合语言智能与世界模型,其中世界模型可以认为是物理世界通用智能的底层“操作系统”,将会成为构建物理世界通用智能的核心基座,世界模型未来重要性日益凸显,将会持续驱动算法从端到端走向世界动作模型的全新范式演进,行业巨头如英伟达、Google、Tesla、华为、理想等等 Physical AI 公司正在积极布局,共同推动智能时代从“工具延伸”迈向有意识、大规模改造世界的新纪元。
![]()
Dexmal 原力灵机创始团队成员 汪天才
在具身智能浪潮下,VLA(视觉-语言-动作)模型面临两大挑战:缺乏统一高效的开源工具箱,以及缺乏大规模公正的真机物理评测。Dexmal 原力灵机创始团队成员汪天才先生介绍了一站式 VLA 开源工具箱 Dexbotic,它整合多种数据格式与构型,提供强预训练模型,支持快速开发与多仿真器统一评测,显著提升研发效率 3-7 倍;同时,原力灵机推出全球首个具身智能的真机评测平台 RoboChallenge,基于大规模任务集Table30(包含 30 个精心设计的日常任务、2.4 万段视频数据)进行公平测试,用户可在线提交模型并获得详尽的性能反馈;此外,配套开源硬件 DOS-W1 支持模块化数据采集与即插即用,全面降低研发门槛。Dexbotic、RoboChallenge 和 DOS-W1 三者正在形成协同效应,从软件、硬件、标准方面推动 VLA 技术发展与生态共建。
![]()
灵御智能创始人金戈
灵御智能创始人金戈先生在演讲中提出,具身智能目前面临“不可能三角”的挑战——即通用性、可靠性和速度难以兼顾。传统工业机器人自主性不足,模型驱动方式虽快但泛化能力弱,核心问题在于高质量真机数据的严重匮乏。他强调“人在环中”是经过验证的可靠路径,通过人类介入收集复杂场景数据,可提升模型鲁棒性,例如自动驾驶安全员和智能零售中的实时反馈。渐进式发展路径主张先部署有人远程操作的机器人,积累真实数据以迭代优化,逐步实现自主化,类似呼叫中心向AI过渡的历程。其公司推出的轮臂机器人以可负担价格,结合低延迟遥操与3D感知技术,已应用于机场清洁等场景,显著降低成本并推动商业飞轮运转。这一路径优先聚焦工业等高容错需求领域,暂避家庭复杂环境,以数据驱动实现具身智能的务实演进。
![]()
智在无界灵巧手团队负责人袁昊琦
智在无界灵巧手团队负责人袁昊琦先生提出,利用海量人类视频数据训练视觉-语言-动作大模型,是实现机器人泛化操作的新路径。当前主流方法依赖真机遥操数据,成本高、多样性差且受限于特定本体。团队通过收集互联网人类第一视角操作视频,构建自动化标注流程,利用自回归架构实现端到端手部动作预测,使模型在未见过的场景中具有强泛化能力。该方法显著降低预训练对机器人真机数据的依赖;结合少量真机数据或仿真数据后训练,实现真机灵巧手高成功率、泛化的自主操作。团队开源的模型支持不同本体、不同任务的微调,推动具身智能向高效、可扩展的方向演进,实现“从人类数据中涌现智能”的愿景。
圆桌对话环节,来自贝陪科技创始人兼 CEO 黄缨宁、阿尔法公社合伙人刘罡、影智科技产品负责人钱庄一同围绕「AI 模型与终端形态的未来图景」展开讨论,由机器之心副主编张倩担任主持人。
![]()
从左向右依次为:机器之心副主编张倩、贝陪科技创始人兼 CEO 黄缨宁、阿尔法公社合伙人刘罡、影智科技产品负责人钱庄
贝陪科技创始人兼 CEO 黄缨宁女士从可豆陪陪在儿童 AI 陪伴产品的实践出发,深刻诠释了具身智能的本质在于“物理存在”与真实世界交互的能力。她指出,传统 AI 多依赖摄像头采集数据后进行云端判别,而具身智能则通过机器人本体实现即时感知与反馈,形成闭环响应。她强调,未来 AI 不仅是工具,更是与儿童建立情感关系的“伙伴”,因此产品必须兼顾技术智能性与心理友好性,尤其在儿童发展关键期,需深入拆解使用场景、尊重成长规律。其理念体现了从功能导向向关系建构的跃迁,推动 AI 向具备社会属性的启蒙角色演进。
阿尔法公社合伙人刘罡先生从早期投资视角系统剖析了具身智能的发展逻辑与趋势。他认为,具身智能是具备物理载体的人工智能,核心在于实现对物理世界的主动感知与自主交互。相较于上一代判别式 AI,当前技术更强调从被动识别到主动决策、从单模态处理到多模态融合等。他指出,新一代 AI 硬件产品,先不要关注“形”,要先关注“神”。抛开形态,哪些核心技术的攻克,能带来 10 倍的增长变化,就容易使产品具备规模化能力。作为 AI 硬件赛道最活跃的投资机构之一,阿尔法公社致力于支持具备前瞻视野和卓越领导力,能够在市场中定义新品类、创造新规则的非凡创业者,推动 AI 与物理世界交汇的范式转变。
影智科技产品负责人钱庄先生结合 AI 咖啡机器人的产业实践,揭示了具身智能的技术驱动力与商业化路径。他认为, 2017 年以语音识别为代表的感官 AI 化是第一波浪潮,而当前大模型驱动的认知生成能力,则使机器具备类人思维与行动整合能力,真正实现“大脑+四肢”的协同。他观察到,AI 领域正呈现新的“摩尔定律”——算力与算法日新月异,但关键挑战在于如何将前沿技术转化为大众可感可用的服务。影智科技通过 AI+ 机器人打造全球领先的咖啡大师,正是将复杂技术封装为自然交互体验的典范,展现了具身智能从实验室走向日常生活的现实图景。
本次技术沙龙,不仅为行业搭建了开放协作的交流平台,也是一次思想碰撞与智慧交融的行业活动。嘉宾们的真知灼见,从模型架构、数据闭环、硬件平台到商业路径,系统性地勾勒出“虚实共振”的演进脉络,展现出 AI 从感知理解走向行动干预、从虚拟认知迈向物理交互的宏大趋势。
![]()
![]()





京公网安备 11011402013531号