当前位置: 首页 » 资讯 » 新科技 » 正文

18岁创业者开源史上最大工厂视觉数据集,押注机器人从人类学习

IP属地 中国·北京 DeepTech深科技 时间:2025-11-18 20:13:10

不久前,年仅 18 岁的创业者 Eddy Xu 在社交媒体上宣布,其创办的 Build AI 正式开源 Egocentric-10K 数据集,这是一个包含 10,000 小时第一人称视角视频的数据集,记录了 2,153 名工厂工人在真实车间环境中的实际操作场景。数据集总容量达 16.4 TB,包含超过 10.8 亿帧画面,已在 Hugging Face 平台发布,采用 Apache 2.0 许可证,允许商业使用和修改。


图丨相关推文(X)

Eddy Xu 在推文中写道:“历史上最大的第一人称视角数据集,机器人学习的数据扩展时代已经到来。”

Egocentric-10K 的视频全部来自真实工厂车间,而非实验室环境。工人们佩戴头戴式摄像设备,在日常工作中记录下从零件加工、分拣、组装、包装到检验的完整流程。数据统计显示,96.42% 的工作涉及至少一只手的操作,76.34% 需要双手协同,91.66% 包含主动的物体操纵动作。这些数字明显高于此前公开的同类数据集——例如 Ego4D 的手部可见率为 67.33%,EPIC-KITCHENS 则为 90.37%。


图丨与其他数据集的比较(X)

视频以全高清 MP4 格式存储,按工厂和工人分类组织。每个视频片段都附带 JSON 格式的元数据,包括工厂编号、工人编号、视频时长、分辨率、帧率等信息。数据集采用 WebDataset 格式,支持流式加载和部分下载,研究者可以根据需要选择特定工厂或工人的数据进行训练。

Build AI 的创始人 Eddy Xu 的成长轨迹相当传奇。2021 年,还在读初三的他就带领 Great Neck 的机器人团队 1569A OMEGA 参加 VEX 机器人世界锦标赛,在 2 万支参赛队伍中获得第 32 名。这支队伍在队员家的地下室里运营,没有家长或专业教练指导,也没有资金赞助。


图丨Eddy Xu(X)

后来 Eddy Xu 进入 Miller School of Albemarle,在那里他成为计算机编程课程的学生助教,开发了工程设计软件供学校的混凝土独木舟团队使用。他自学 Java 和 Python,在高中阶段就通过了 AP 计算机科学考试。

除此之外,他还有一些系列创业经历:筹集 12 万美元建立竞技机器人团队并赢得全国签名锦标赛,在 DECA 商业世界锦标赛的 20 万名竞争者中胜出,3 个月内出售一家拥有 17.8 万用户的教育科技初创公司。

2025 年初,他在哥伦比亚大学就读时开发了一款基于 meta 智能眼镜的 AI 国际象棋系统。这个项目使用计算机视觉识别棋盘,结合象棋引擎实时提供最优走法,一度在社交媒体上引发热议。


图丨Eddy Xu 开发的 AI 眼镜(X)

今年,Eddy Xu 从哥伦比亚大学辍学创办 Build AI。他在个人网站上写道:“我拒绝了超过 2,500 万美元的股权邀约来创办 Build。团队中的其他人也离开了学术界、顶级实验室和他们自己的公司加入进来。”而他为公司定下的使命也相当宏伟:“构建物理超级智能,为所有人带来富足”。

Build AI 在 9 月获得了 500 万美元融资,由 Abstract Ventures、Pear VC 和 HF0 三家早期投资机构共同领投,ZFellows 和 Alex Botez (正是使用 Xu 开发的国际象棋眼镜的那位棋手)作为天使投资人参与。

根据其官网描述,Build AI 是第一家“围绕扩展经济上有用的自我中心人类数据而专注打造的公司”,具体来说,其主要策略就是“制造记录设备并在全球企业中部署”。

所谓第一人称视角或自我中心视觉(egocentric vision),指的是从执行者自身视角捕捉的视觉信息。与传统的固定机位第三人称拍摄不同,这种视角记录了手部操作的细节、视线的移动轨迹以及身体与环境的互动方式。meta 的研究项目 EgoMimic 已经证明,使用 Project Aria 智能眼镜收集的人类第一人称操作数据,能够显著提升机器人的任务成功率并实现场景泛化。

另一家知名的人形机器人公司 Figure AI 也采取了这种收集数据的方法。Figure AI 在今年 9 月宣布了“Project Go-Big”计划,通过与资产管理巨头 Brookfield 合作,在超过 10 万个住宅单元中收集人类日常活动的自我中心视频,用于训练其人形机器人 Figure 03。Figure AI 声称已实现“零样本人类到机器人迁移”,机器人仅通过观看人类视频就能学会执行导航任务,无需任何机器人专用训练数据。这种方法被 Figure 形容为“互联网规模的人形机器人预训练”。

除了依靠人类视频之外,业内也所采用的另一条线路则是从真实机器人交互中直接收集数据。我们不久前报道的 Generalist AI 即是这条路线的代表,其 GEN-0 模型据称使用了超过 27 万小时的机器人操作数据进行预训练,以每周 1 万小时的速度增长。

两种路径各有优劣。人类视频数据丰富且易于大规模采集,但存在实施差距(Embodiment Gap),人类的身体结构与机器人截然不同,如何将人类的动作映射到机器人上是个难题。机器人自身数据虽然不存在映射问题,但采集成本高昂,规模扩展困难。

Xu 曾表示,Build AI自成立以来已经“收集了比历史上任何公司都多的自我中心数据”,但关于这些数据的可用性等核心问题,我们目前尚不得而知。

正如其官网所表示的,这是一个“具有重大技术风险和低成功概率”的研究性押注。网站写道:“如果我们是对的,我们既能推进机器人研究,也能从根本上改善数十亿人的生活。”公司强调团队由独角兽创始人、机器人竞赛世界冠军和学术研究者组成,价值观是“紧迫感、雄心和技术卓越”。

目前,Egocentric-10K 数据集的完整版本和 3 万帧的评估子集都已在 Hugging Face 上公开。研究者可以使用 Python 的 datasets 库直接加载,也可以选择特定工厂或工人的数据进行实验。Build AI 表示,这个数据集的规模和质量还在持续增长中。

参考资料:

1.https://build.ai/

2.https://huggingface.co/datasets/builddotai/Egocentric-10K

3.https://x.com/eddybuild/status/1987951619804414416

4.https://www.eddy.build/

5.https://www.humanoidsdaily.com/feed/build-ai-open-sources-10-000-hours-of-factory-worker-video-to-scale-robot-learning

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新