
摘要:
在英特尔研究院副总裁宋继强看来,具身智能真正要走进工厂、走向家庭,必须跨过“可靠性”这座大山——而方法,是给机器人装上三套系统。
科技 出品
作者|于浩
编辑|董雨晴
1月20日,英特尔研究院副总裁、英特尔中国研究院院长宋继强接受了包括在内的媒体采访。
“今天的具身智能机器人,像是一个‘天才儿童’:在理想状态下表现惊艳,一旦遇到意外,就可能手足无措。”宋继强如此描述当前行业面临的共同挑战。
在他身后的屏幕上,展示着一个三层架构的系统框图——这正是英特尔为应对上述挑战提出的“三重系统”方案。
随着 ChatGPT 掀起的大模型浪潮逐渐渗透至物理世界,具身智能(Embodied AI)已成为全球科技竞赛的下一焦点。从特斯拉的 Optimus 到小鹏汽车推出的 Iron,机器人正被赋予前所未有的理解和决策能力。

然而,从演示视频走向真实场景,一道关乎“可靠性”的鸿沟横亘在眼前。宋继强指出,当前基于视觉语言模型(VLA)的机器人,其动作生成的准确率“大概在百分之六七十左右”,幻觉、环境适应性差、长任务规划能力弱等问题仍未解决。
“如果我们希望它在3年左右实现真正落地,且不出现因安全问题导致的重大事故,就需要尽早建立相关框架,凝聚行业共识。”宋继强说。
01
系统架构:为机器人装上“三重保险”
在宋继强的阐述中,一套可信赖的具身智能系统应由三个层次构成:主系统(Primary System)、安全系统(Safety System)和后备系统(Fallback System)。
主系统承载了机器人的“智能”,负责决策、规划与行动生成。英特尔力推的“神经符号AI”方法是其核心,旨在结合神经网络的泛化能力与符号逻辑的可靠性与可解释性。
“它既运用了神经网络的泛化能力,避免机器人局限于单一场景和单一方案,又能将传统基于符号、规则与知识的方法融合进来。”宋继强解释,这相当于“抬高机器人的下限”,确保其不会因幻觉等问题产生灾难性后果。
然而,现实世界充满意外。执行器故障、传感器错误、未知障碍物、地面打滑……这些都在主系统的认知边界之外。为此,需要引入更底层的保障。
安全系统是一个轻量、高可靠的监控层,持续比对机器人的执行状态与预设安全规则(如“不得碰撞人类”、“持尖锐物体需保持安全距离”),一旦发现偏离即刻告警或干预。
若安全系统也无法处理,例如机器人即将摔倒,后备系统将被激活。它的目标不是让机器人“急停”,而是引导其进入一个可靠的降级状态。
“例如,机器人可以像汽车一样慢速靠边停靠;若即将摔倒,可选择无人区域,通过锁定部分关节实现缓慢摔倒。”宋继强说。
这套“PMDF”框架(分别是具身智能主控系统、监控系统、安全决策和故障处理和恢复),已被写入英特尔联合多家合作伙伴发布的《具身机器人智能安全子系统白皮书》中。宋继强透露,发布后反响良好,不少学术界和业界单位希望参与推进。
02
专用芯片未至,英特尔押注“传统优势”
当话题转向硬件,科技提出了一个问题:未来机器人领域会否出现专用芯片?面对特斯拉、小鹏等车企自研芯片的趋势,英特尔的机会何在?
宋继强的回答坦诚而务实。他明确判断,目前机器人市场规模尚小,专用芯片在经济上不可行。“核心原因在于机器人市场的规模目前还很小,对于芯片厂商而言,专门为机器人定制芯片难以实现盈利。”
当前行业普遍复用手机、汽车、PC等领域的成熟芯片,进行改造适配。更深层的原因在于,机器人的“工作负载”尚未定型。“我们无法明确,芯片是应针对VLA的工作负载进行优化,还是为后续的世界模型工作负载提供支持。”
在这种情况下,通用芯片是更稳妥的选择。宋继强预计,只有当行业形成标准化的工作负载后,专用芯片(ASIC)才会出现,其研发周期可能在10-18个月。
那么,英特尔的机会在哪里?宋继强将答案指向了英特尔在工业控制领域长期被忽略的“隐形冠军”地位。

“在传统工业自动化领域,英特尔的市场地位可以用‘绝对优势’来形容……在工业场景的高精度、高频率运动控制领域,大部分工控产品和工控板都基于英特尔的CPU开发。”
他总结了三大优势:一是技术迁移,将工业运动控制经验迁移至机器人的动作控制层;二是资源调度优化,确保运动控制等毫秒级任务不被其他任务干扰;三是多系统融合能力,实现隔离监控与快速安全响应。
对于当下炙手可热的酷睿Ultra等集成AI算力的芯片,宋继强视其为“稳定的硬件底座”。若算力不足,可额外配置AI算力卡。他预判,未来的主流部署模式将是“机器人终端+边缘服务器”,在低延迟前提下,将大模型部署于边缘,形成跨网络的异构计算资源池。
03
现实瓶颈:数据孤岛、VLA幻觉与成本悬崖
尽管蓝图清晰,但通向可靠具身智能的道路上布满荆棘。宋继强在回答多个问题时,勾勒出了当前最主要的几大瓶颈。
首当其冲的是VLA(视觉语言模型)的能力天花板。 宋继强直言,当前VLA的准确率仅在百分之六七十,存在显著幻觉问题,且对视觉环境变化敏感,泛化能力弱。“它并未真正理解场景的本质,不具备对场景中物体三维关系、因果关系的认知能力。”
这也是行业转而关注“世界模型”的原因——为其补充物理定律和因果关系认知。但世界模型自身也面临与真实场景融合的挑战。
更深层、更根本的挑战来自于数据。 宋继强指出,数据问题是行业核心痛点。具身智能需要场景理解、任务规划和机器人本体三类数据,但现状是“数据孤岛”严重。
“不同行业场景、不同机器人本体、不同任务类型所需的数据差异极大。”他列举了四个统一数据标准建立的难点:数据完整性定义不明(是否需要触觉等);操作精度和频率无统一要求;机器人本体无公认最优方案;数据采集视角未确定。
“因此,当前行业仍处于各自探索的阶段,短期内会维持‘百花齐放’的状态。”
最后一个关卡是量产与成本。 宋继强提醒,目前展会上的机器人多是“手工制作的原型机”,零部件未达到车规级或工业级标准,一致性差。“机器人整体价格的下降也依赖于大厂的入局。”
他以特斯拉为例,指出行业看好其的核心原因之一正是强大的量产能力。只有通过工业化量产压硬件成本,同时智能能力达标,机器人才有可能走向更广阔的商用乃至消费场景。
04
未来三年:从“展示天才”到“可靠工匠”
面对如此多的挑战,具身智能的落地时间表究竟如何?宋继强给出了一个审慎的预测。
“要将这些能力整合为一套可靠的解决方案,把VLA的准确率从目前的百分之六七十,提升到工业级应用要求的99%以上,预计还需要两三年的时间。”
他描绘了一条清晰的落地路径:
短期(1-2年),在物流分拣、工厂搬运、标准件组装等半结构化场景实现小规模部署。这些场景用工成本高、环境相对可控,能容忍机器人初期的高成本。
中期(3年左右),随着智能能力可靠性提升、行业安全框架形成共识,在以上场景中扩大应用规模。
长期,则取决于量产一致性和成本控制的突破,需要大型车企等具备工业化生产能力的企业入局推动。
“这一发展路径符合Gartner成长曲线的规律。”宋继强总结道,先以技术预期吸引投入,快速提升能力;后在部署中解决问题,在早期场景中验证商业化;最终大厂入局,推动规模化。
在采访的最后,宋继强反复强调“融合”与“解耦”这一对看似矛盾的关键词。
融合,是新老技术的融合——将前沿的AI模型与历经验证的传统控制技术、安全工程相结合。解耦,是软硬件在能力层面的解耦——让上层的感知规划模块能适配不同机器人本体,降低开发成本。
“具身智能的发展不会依赖单一技术突破,而是需要新老技术的叠加融合。”宋继强说。一个未经充分验证的新技术无法直接用于关键任务,只有与成熟技术结合,才能形成完整可靠的解决方案。

这或许正是英特尔在这场具身智能竞赛中的独特定位:不做最激进的颠覆者,而是做最可靠的整合者。用其在工业领域数十年的“隐性知识”,为狂奔的AI“天才少年”,装上经受过物理世界锤炼的“小脑”与“反射神经”。
当机器人离开聚光灯下的展示台,走进嘈杂、混乱、充满不确定性的真实世界时,决定其价值的将不再是它最惊艳的瞬间,而是它最不会出错的下限。而这,正是一场关于“可靠”的漫长工程的开端。





京公网安备 11011402013531号