当前位置：首页 » 资讯 » 新科技 » 正文

18岁创业者开源史上最大工厂视觉数据集，押注机器人从人类学习

IP属地中国·北京 DeepTech深科技 时间：2025-11-18 20:13:10

不久前，年仅 18 岁的创业者 Eddy Xu 在社交媒体上宣布，其创办的 Build AI 正式开源 Egocentric-10K 数据集，这是一个包含 10,000 小时第一人称视角视频的数据集，记录了 2,153 名工厂工人在真实车间环境中的实际操作场景。数据集总容量达 16.4 TB，包含超过 10.8 亿帧画面，已在 Hugging Face 平台发布，采用 Apache 2.0 许可证，允许商业使用和修改。

图丨相关推文（X）
Eddy Xu 在推文中写道：“历史上最大的第一人称视角数据集，机器人学习的数据扩展时代已经到来。”
Egocentric-10K 的视频全部来自真实工厂车间，而非实验室环境。工人们佩戴头戴式摄像设备，在日常工作中记录下从零件加工、分拣、组装、包装到检验的完整流程。数据统计显示，96.42% 的工作涉及至少一只手的操作，76.34% 需要双手协同，91.66% 包含主动的物体操纵动作。这些数字明显高于此前公开的同类数据集——例如 Ego4D 的手部可见率为 67.33%，EPIC-KITCHENS 则为 90.37%。

图丨与其他数据集的比较（X）
视频以全高清 MP4 格式存储，按工厂和工人分类组织。每个视频片段都附带 JSON 格式的元数据，包括工厂编号、工人编号、视频时长、分辨率、帧率等信息。数据集采用 WebDataset 格式，支持流式加载和部分下载，研究者可以根据需要选择特定工厂或工人的数据进行训练。
Build AI 的创始人 Eddy Xu 的成长轨迹相当传奇。2021 年，还在读初三的他就带领 Great Neck 的机器人团队 1569A OMEGA 参加 VEX 机器人世界锦标赛，在 2 万支参赛队伍中获得第 32 名。这支队伍在队员家的地下室里运营，没有家长或专业教练指导，也没有资金赞助。

图丨Eddy Xu（X）
后来 Eddy Xu 进入 Miller School of Albemarle，在那里他成为计算机编程课程的学生助教，开发了工程设计软件供学校的混凝土独木舟团队使用。他自学 Java 和 Python，在高中阶段就通过了 AP 计算机科学考试。
除此之外，他还有一些系列创业经历：筹集 12 万美元建立竞技机器人团队并赢得全国签名锦标赛，在 DECA 商业世界锦标赛的 20 万名竞争者中胜出，3 个月内出售一家拥有 17.8 万用户的教育科技初创公司。
2025 年初，他在哥伦比亚大学就读时开发了一款基于 meta 智能眼镜的 AI 国际象棋系统。这个项目使用计算机视觉识别棋盘，结合象棋引擎实时提供最优走法，一度在社交媒体上引发热议。

图丨Eddy Xu 开发的 AI 眼镜（X）
今年，Eddy Xu 从哥伦比亚大学辍学创办 Build AI。他在个人网站上写道：“我拒绝了超过 2,500 万美元的股权邀约来创办 Build。团队中的其他人也离开了学术界、顶级实验室和他们自己的公司加入进来。”而他为公司定下的使命也相当宏伟：“构建物理超级智能，为所有人带来富足”。
Build AI 在 9 月获得了 500 万美元融资，由 Abstract Ventures、Pear VC 和 HF0 三家早期投资机构共同领投，ZFellows 和 Alex Botez （正是使用 Xu 开发的国际象棋眼镜的那位棋手）作为天使投资人参与。
根据其官网描述，Build AI 是第一家“围绕扩展经济上有用的自我中心人类数据而专注打造的公司”，具体来说，其主要策略就是“制造记录设备并在全球企业中部署”。
所谓第一人称视角或自我中心视觉（egocentric vision），指的是从执行者自身视角捕捉的视觉信息。与传统的固定机位第三人称拍摄不同，这种视角记录了手部操作的细节、视线的移动轨迹以及身体与环境的互动方式。meta 的研究项目 EgoMimic 已经证明，使用 Project Aria 智能眼镜收集的人类第一人称操作数据，能够显著提升机器人的任务成功率并实现场景泛化。
另一家知名的人形机器人公司 Figure AI 也采取了这种收集数据的方法。Figure AI 在今年 9 月宣布了“Project Go-Big”计划，通过与资产管理巨头 Brookfield 合作，在超过 10 万个住宅单元中收集人类日常活动的自我中心视频，用于训练其人形机器人 Figure 03。Figure AI 声称已实现“零样本人类到机器人迁移”，机器人仅通过观看人类视频就能学会执行导航任务，无需任何机器人专用训练数据。这种方法被 Figure 形容为“互联网规模的人形机器人预训练”。
除了依靠人类视频之外，业内也所采用的另一条线路则是从真实机器人交互中直接收集数据。我们不久前报道的 Generalist AI 即是这条路线的代表，其 GEN-0 模型据称使用了超过 27 万小时的机器人操作数据进行预训练，以每周 1 万小时的速度增长。
两种路径各有优劣。人类视频数据丰富且易于大规模采集,但存在实施差距(Embodiment Gap)，人类的身体结构与机器人截然不同,如何将人类的动作映射到机器人上是个难题。机器人自身数据虽然不存在映射问题,但采集成本高昂,规模扩展困难。
Xu 曾表示，Build AI自成立以来已经“收集了比历史上任何公司都多的自我中心数据”，但关于这些数据的可用性等核心问题，我们目前尚不得而知。
正如其官网所表示的，这是一个“具有重大技术风险和低成功概率”的研究性押注。网站写道：“如果我们是对的，我们既能推进机器人研究，也能从根本上改善数十亿人的生活。”公司强调团队由独角兽创始人、机器人竞赛世界冠军和学术研究者组成，价值观是“紧迫感、雄心和技术卓越”。
目前，Egocentric-10K 数据集的完整版本和 3 万帧的评估子集都已在 Hugging Face 上公开。研究者可以使用 Python 的 datasets 库直接加载，也可以选择特定工厂或工人的数据进行实验。Build AI 表示，这个数据集的规模和质量还在持续增长中。
参考资料：
1.https://build.ai/
2.https://huggingface.co/datasets/builddotai/Egocentric-10K
3.https://x.com/eddybuild/status/1987951619804414416
4.https://www.eddy.build/
5.https://www.humanoidsdaily.com/feed/build-ai-open-sources-10-000-hours-of-factory-worker-video-to-scale-robot-learning
运营/排版：何晨龙

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

特斯拉起诉无忧传媒等购车企业，要求退还新能源补贴，多企业回应

One More Thing：岚图追光L豪华轿车定档12月上市

离谱：为在飞机上免费上网，留学生尝试侵入航司服务器被治安处罚

全国卫星导航定位基准站将被纳入统一监管，明年1月起实施

翼菲首款人形机器人“鸿钧”发布：全向轮可升降底盘，能拧螺丝

岚图泰山华系首搭三腔空悬旗舰SUV上市21分钟大定突破1万台

全站最新

特斯拉起诉无忧传媒等购车企业，要求退还新能源补贴，多企业回应

One More Thing：岚图追光L豪华轿车定档12月上市

离谱：为在飞机上免费上网，留学生尝试侵入航司服务器被治安处罚

全国卫星导航定位基准站将被纳入统一监管，明年1月起实施

热门推荐

优必选CBO谭旻回应高盛质疑：公布的所有订单量都向全体股东负责，他们应多来中国

吉利高管痛批：赚钱的新势力车企凤毛麟角（吉利零跑小鹏Q3电话会划重点)

安诚财险股权再上拍卖台，年内多家股东密集离场，高管动荡、业绩承压

百度Q3财报首次披露AI原生业务收入，智能云收入42亿元

特斯拉起诉无忧传媒等购车企业，要求退还新能源补贴，多企业回应

One More Thing：岚图追光L豪华轿车定档12月上市

离谱：为在飞机上免费上网，留学生尝试侵入航司服务器被治安处罚

全国卫星导航定位基准站将被纳入统一监管，明年1月起实施

翼菲首款人形机器人“鸿钧”发布：全向轮可升降底盘，能拧螺丝

岚图泰山华系首搭三腔空悬旗舰SUV上市21分钟大定突破1万台

宁德时代：2027年有望实现全固态电池小批量生产

小米总裁卢伟冰回应存储成本上涨：一部分要通过涨价消化，更重要的是优化产品结构

鸿蒙智行享界S9甄选现车发布，发布会后2-4周有机会快速提车

力压小米汽车，700亿车企巨头突然爆火

深蓝L06上市：搭载磁流变悬架系统限时13.29万元起