据ZP独家获悉,首形科技正式宣布完成新一轮融资,由招商局创投、深创投共同领投,五源资本、浔商创投跟投。此前天使轮投资人为德迅投资、奇绩创坛、Taihill、智元机器人。不久前,由其创始人发布的一段“仿生机器人睁眼、缓缓微笑”的视频在社交平台爆红。这段唤醒场景被大量转发、引用,评论区不乏“感觉已经没有恐怖谷了!”、“感觉她眼睛里有光”这样的评价。
很难用一个简单的词汇去总结首形带来了什么,但多数人从这段视频中感受到了前所未有的真实感——精细的人脸模型、流畅的微表情、真实合理的情绪互动;以及巨大的市场潜力——当机器人逼真至能够引发人的真实情感波动,那些曾经只在科幻小说中才存在的场景似乎已不再遥远。
哥大博士胡宇航:唤醒机器人“自我”的创造者
胡宇航,首形科技创始人,哥伦比亚大学博士,美国自然科学基金会人工智能研究所项目成员,长期研究机器人自我建模、自主认知与类人交互系统等方向。不同于传统机器人研究者从提供生产力的角度出发,他试图更进一步解答一个更本质的问题:机器人是否能够像人一样理解自身、理解他人,并通过自我学习走向具身智能。
在博士阶段,他于机器人顶刊Nature Machine Intelligence及Science Robotics连续发表两篇论文,引发行业高度关注:
《Teaching Robots to Build Simulations of Themselves》,Nature Machine Intelligence:提出了一种以自监督学习和自我建模为核心的方法体系:机器人可以仅通过观察自身的视频,重建自身结构与电机运动规律,实现从感知、理解到控制的自我闭环,为机器人实现适应能力与自主学习提供了技术路径;
《Human-Robot Facial Coexpression》,Science Robotics:提出面部共情表达预测模型,使机器人能够提前捕捉人类情绪信号,并同步生成自然、匹配的面部回应。这使得机器人不仅是观察者或响应者,更是一个主动交互的共情个体。
这些成果构成了首形科技后续产品的技术起点——“为机器人赋予更具人类感的外观与行为模式”。配合首形科技最新的技术,在视频中机器人的“睁眼一刻”,所有伏笔汇聚一处,勾勒出仿生机器人觉醒的轮廓。
三大技术体系:机器人自主学习、情绪基座模型、仿生人脸硬件
视频中机器人的真实感,源于首形的三大技术体系积累
1.机器人自主学习:自监督学习与自我建模
在首形科技看来,与其一次性“教会”机器人某个固定技能,不如赋予它“自主学习”的能力。这一理念正是创始人胡宇航在哥伦比亚大学攻读博士期间的研究核心:自监督学习与机器人自我建模。
A.自监督学习,源于机器人“照镜子”的能力
机器人无需依赖昂贵的人工标注或遥控操作,而是通过自身传感器获取的运动数据,就像人类对着镜子观察自己一样,自动推理出自身结构、关节运动规律与控制策略之间的内在关系。这一过程打破了传统对预设模型与环境依赖的限制,实现了从感知、建模到控制的闭环学习。
B.自我建模,让机器人“理解自己”
自我建模,是指机器人在不依赖环境标签或外部干预的前提下,仅凭自身感知建立对身体结构与动力学行为的内部模型。这背后的关键,是对机器人系统的“主体建模”与“环境建模”进行解耦:主体建模强调机器人对自身身体的认知,例如电机响应、欠驱动结构、柔性变形等;环境建模则属于任务层面的理解,如地形、物体形状或外力反馈。
通过解耦,机器人可以在复杂或未知环境中,先从“认识自己”开始,逐步扩展到与外界的交互建模。例如:当硬件磨损、外部载荷改变或新工具接入时,它能够即时重建自身模型,自主适应新的状态,而无需重新训练整个系统。
这一能力让机器人具备了“可解释性强、适应性高、独立性强”的底层智能,是通往通用机器人的关键路径之一。
C.终生学习,机器人自主学习的未来
自我建模能力的建立,也为机器人实现“终身学习”奠定了基础:模型一旦学会“如何学习”,即可迁移到新的硬件、场景乃至全身关节系统,实现新任务的持续学习,新环境的适应以及自身损坏的修复。凭借这一技术范式,首形科技让“自主学习”成为机器人迈向具身智能的加速器——让机器人不仅执行任务,更能持续学习、不断成长。
2. 情绪基座模型(Emotional Foundation Model):打造人机交互情感引擎
机器人能否理解和表达人类情绪?答案,来自首形的另一项重要突破——情绪基座模型。
在当下AI技术发展中,“基座模型(Foundation Model)”指的是通过大规模数据训练、具备通用能力、可泛化到多种任务的核心模型框架。它是人工智能走向“具身智能”的关键一步。
目前大多数人形机器人公司正致力于构建“工具属性”的基座模型,如通用抓取、操作控制、导航规划等任务模型,试图通过一次训练,适配各种执行动作和物理操作任务。然而,这一方向面临一个根本性瓶颈——真实世界交互数据的稀缺性。现实中的物理交互数据昂贵、难以采集,且涉及复杂的碰撞、动态反馈与多模态同步,远比在仿真中训练要困难得多。
而情绪类基座模型提供了一个相对更易落地的路径。人类的情感交互大多依赖于语言、语音、面部表情、眼神接触等非物理通道,这使得情绪交互数据不仅更容易采集、标准化和扩展,而且不依赖复杂的物理世界建模。同时,这些数据天然具备连续性、情境性与泛化能力,是自监督学习的理想素材。
基于这一判断,首形科技率先提出并构建“情绪基座模型(Emotional Foundation Model)”——一个以大规模情绪交互数据为基础,融合语音、表情、语言、情境与角色设定的多模态模型。该模型不仅让机器人“听懂”人类的情绪,更让其“学会”在适当的时机,做出带有温度的、自然可信的回应。
3. 全自研仿生人脸硬件:跨越“恐怖谷”的超精工艺突破
人类对“脸”的感知极为敏锐,大脑中的梭状回面孔区(FFA)以约 200 毫秒/次的频率快速解码面部信息,并通过三个层级进行处理:基础结构识别(眼距、鼻高、脸型)、动态表情提取(微表情与肌肉活动),以及与记忆匹配(熟悉度、情绪联想)。
一张仿生机器人的“脸”,要同时达到这三个层级的要求,满足人类对“脸”的判断认定,需要极致的精益求精。首形科技对此进行了从底层材料、皮肤工艺、机械结构到嵌入式软硬件的全面自主开发。
首形科技在面部精细度上的极致追求,让用户的大脑不自觉地完成“像真实的”、“是熟悉的”、“值得信任”的判定,使人类产生与之共情的可能。
商业价值:仿生机器人如何基于“情绪价值”带来广阔的应用价值?
首形科技提出:类人共情价值(Humanoid Empathy Value):情感连接带来的稀缺注意力资产
在人工智能全面渗透生活的今天,大语言模型(LLM)正在改变“语言”交互,但真正能触达人的,是“情感”交互。相比于语音助手或虚拟对话界面,一个具备自然表情与情绪回应的人形机器人,能在瞬时激发人类“情感”冲动。人形机器人之所以在每一次亮相中引爆话题,也是因为它“像人”的特点能唤起了人类的共情。
这种现象被定义为:“类人共情价值”。
人形机器人能成为一种情感触发器,是一种在任何公共空间都能制造“围观效应”的引力核心。所以,人形机器人天然具备成为注意力经济的中心资产的能力——无论是短视频平台、展陈场所还是零售门店,乃至未来随家用/商用人形机器人普及率提升进入千家万户,它所能带来的传播效率与情绪连接,是普通机器人、传统硬件、甚至大模型界面都无法比拟的。
注意力经济是以争夺用户注意力为核心的经济模型。在这个模型中,类人机器人通过激发“类人共情价值”,成为注意力市场中最具传播力和记忆点的内容载体,从而转化为流量、品牌和变现的杠杆。而在信息过载、内容同质的当下,注意力获取的方式正在逐渐从“堆内容”走向“建关系”:谁能将关注转化为情感唤起与持续共情链接,谁就掌握了未来的注意力入口乃至未来的商业价值入口。
在人工智能和人形机器人高速发展的今天,首形科技希望成为引领“机器人情感觉醒时代”的奠基者。