(Scale AI CEO Alex Wang 独家访谈精华)
2025年06月13日,143 亿美元,49% 股权——meta 甩出自 WhatsApp 以来最大一张支票,只为收编全球最“懂”数据的独角兽 Scale AI。
(美联社新闻)
这不是一场 VC 式下注,而是一场战略级并入:交易一落槌,年仅 28 岁创始人 Alex Wang 直接跳进 meta 总部,出任“超智部门”掌门人。
为什么 Scale AI 值这么多钱?
去年,它靠“喂数据”就创收 8.7 亿美元,累计完成 130 亿次数据标注、8700 万条生成式清洗,堪称 AI 世界的“炼油厂”。
但就在交易官宣前 72 小时,Alex Wang 在播客《Shawn Ryan Show》聊了3个多小时,其中抛出了一个核心洞察:
数据不是配料,而是原材料。
(Data is not ingredient, it's raw material)
本篇文章,将以这场少有人完整解读的访谈为主线,结合 Bloomberg、TechCrunch 等最新消息,
用 4 节内容,分析 3 个关键问题:
meta 为何用 143 亿美元收编 Scale?
数据工厂具体怎么运转,能有多赚钱?
对中国 AI 企业来说,这是不是新的赛道?
最后,我们也会给出一份“AI 数据工厂”的实操认知清单,供你参考。
第一节|meta 为什么要收编 Scale AI?
现在最强的模型,已经不是最稀缺的资源。
Alex Wang 在访谈开头就开门见山地说这样一句话。
这一两年,几乎所有大模型玩家都掉进一个陷阱:以为只要把模型调得更大,AI 就会自己变得聪明。但现实是,模型能力再强,如果没有高质量的数据“喂养”,它就像一辆超跑没有汽油——再强的引擎也跑不起来。
过去几年,大家疯狂砸钱砸人,建模型、堆参数。
现在我们看到,光靠模型,很容易卡死在数据这一步。
——Alex Wang
而且这个卡点,不是有没有数据,而是:这些数据是不是适合你要做的任务,是不是能持续更新,能不能快速反馈。
这正是 Scale AI 能值 143 亿美元的原因——它不是造模型的,它是给所有模型 “喂饭” 的那个角色,而且是能按需配餐、持续上菜的厨房。
meta 看得很清楚:
他们不缺模型——LLaMA 系列已经是全球最强开源模型之一;
他们也不缺数据——旗下 Facebook、Instagram、WhatsApp 拥有全球最多的用户数据。
他们缺的是,把海量数据'加工'成 AI 大脑的流水线。。
Alex Wang 说:“我们和 meta 的对话其实很早就开始了,他们不是来看模型 demo 的,他们关心的,是能不能建一套更快、更安全、更可控的流程,把任务级数据、用户级数据,接到 AI 输出上。”
更通俗地说,meta 押注的,不是一个新的工具,而是一个新的厨房。
不是再去买别人做好的菜,而是自己建厨房、备原料、控火候,把“做饭”这件事变成标准化的流程、随时可复用的模块。
而 Scale AI 正好做了这件事。它把数据从“原料”变成了“机器流水线”:
用自动化工具采集各种类型的真实任务数据;
用人类反馈和模型回流,不断更新数据标签;
用微调结果评估,反向调整数据供应策略。
整个过程不是接单做外包,而是一次次打磨出适合不同模型、不同任务、不同平台的数据“喂养流程”。
Alex Wang 明确表示:我们不是一个工具公司,我们是一家 AI 数据工厂。
meta 投这 143 亿,不是买产品,而是为了掌握数据流的主动权。
AI 的未来,不是模型越大越赢,而是谁能最懂怎么喂模型、喂什么数据。
第二节|Scale AI 的数据魔术:不是标注,是工艺
我们不是一个数据标注公司。
Alex Wang 在对话中连续三次强调这句话。
为什么他要反复澄清?
因为外界一提起 Scale AI,最容易想到的就是“数据打工人”:帮大模型贴标签、补数据、做苦力。
但他真正要做的,是一套像流水线一样的机制,让数据的产出、加工、回收,变成自动运行的闭环。
他们构建的是一种能力,让你可以不断拿到适合你模型的训练数据,不断地迭代,不断地提高。
这听起来抽象,实际上你可以把它想象成一个“AI 的数据工厂”,里面有三条生产线:
✅ 第一条:数据收集线——不是抓数据,而是“造任务”
传统的数据收集是“有什么就用什么”,
但 Scale AI 做的是反过来的: 他们先定义一个任务,比如“自动识别卡车驾驶中的异常动作”,再去造出一批真实场景的数据来喂模型。
在访谈中,Alex Wang 说:我们最强的能力是,从0到1构造出特定任务的数据集,比如你要模型做保险理赔、识别化学泄漏、或者国防级任务。
而这个造数据的过程,不是拍脑袋,也不是 AI 自己生成,
而是由人类专家和模型协作完成的。
✅第二条:数据加工线——让人类告诉 AI 什么才叫“好”
这一步,是 Scale AI 的核心护城河。
他们有一个全球最大的“人类反馈团队”之一,由熟悉领域的专家,对 AI 输出的结果进行打分、修改、反馈。
但不同于传统的人工贴标签,他们的加工流程更像让人训练 AI 怎么判断对错、怎么改进。
比如他们给 LLM 模型的数据,不只是答案,而是:
多轮对话的上下文;
用户期望的响应风格;
“不应该出现”的反例。
这让 AI 学会的不只是内容,而是怎么学。
✅ 第三条:回流优化线——模型反过来“教”数据怎么变得更好
一旦模型跑起来,Scale AI 会监控模型表现,判断哪些地方答错、答慢、答偏了。
然后反过来优化对应数据段,就像流水线检查哪个零件出问题,就改那一段的原料供给。
我们看的是 AI 在任务中表现得最差的部分,聚焦补那块数据,
然后让系统整体提升。 ——Alex Wang
这种“训练→反馈→修正→再训练”的循环,一旦跑通,
就形成了 AI 最关键的增长飞轮:数据变好 → 模型变强 → 再反向优化数据。
这些流程,Scale AI 不是给自己用,而是开放给客户,包括:
OpenAI、Anthropic 等模型开发公司;
美国国防部、DARPA、CIA 等政务机构;
汽车、金融、医疗等对精度要求极高的企业。
你可以把他们理解成 AI 世界的“炼油厂”: 原始数据就是原油,模型就是发动机,而 Scale AI 提供的是一整套把原油提炼成适合每台发动机使用的高标号燃料的装置。
这就是他们真正做的“数据炼金术”。
第三节|谁会主导下一波数据工厂?
近期发生的一件事,正暴露了 AI 数据竞争的残酷现实:
科技巨头Google正考虑终止与Scale AI的合作关系;
Microsoft 也在重新评估与 Scale 的合作关系;
一些原本依赖 Scale 的美国科技巨头,正在切断外部依赖。
表面原因是 meta 收购 Scale AI 引发的竞争担忧,但这背后反映了一个更深层的趋势:在 AI 竞争的关键时刻,没有任何一家科技巨头愿意把数据这个核心生产资料交给别人控制。
这意味着什么?
意味着:在直接竞争对手之间,数据工厂的“代工模式”可能快走到头了。
过去,大公司用外包团队清洗数据,现在,越来越多开始自己建数据流水线,只因为他们意识到:谁掌握数据的采集、筛选和微调,谁就能决定 AI 的能力上限。
Alex Wang 的话点破了本质:
数据不是一份静态资源,而是一场持续的生产过程。
你不掌握这个流程,就会被别人的数据节奏牵着走。
他甚至把这场变化比喻成“从买车到造车”:
买别人的数据,是用成品;
建自己的数据工厂,是控制生产。
现在的问题是:
谁来主导下一轮?
✅ 这事离中国玩家远吗?并不。
从访谈和市场走势看,三类人应该立刻警觉:
① 国产大模型团队
如果还在堆参数、抢算力,但数据只靠“公域爬虫 + 少量人力标注”,很快就会被美国厂商拉开差距。
真正强的不是模型本身,而是有没有稳定喂养模型的机制。
② AI 企业服务商
如果你做医疗、金融、政务 AI 应用,手里有细分行业的真实数据却没能力做“精加工”,你就只是在“搬砖”。而 Scale AI 做的,就是把“搬砖”变成“挖矿”——数据可以被提炼、提价、重卖。
③ AI 创业者
访谈后半段 Alex Wang 说:
AI 工业不缺点子,缺的是能把这些点子通过数据快速落地的人。
他说 Scale AI 会越来越多支持“定制型数据工厂”的需求。你提供需求,他们给你“造数据”,这等于给中小型团队开了一条通道——只要你知道你想训练什么,他们就能帮你配一套数据+反馈流程,让小公司也能训练出类 ChatGPT 的效果。
这不是故事。
Alex 说,他们内部现在重点服务的对象,正是非 OpenAI 等头部模型客户,而是有明确定义任务的企业、机构和新创团队。
所以,玩家真正的机会不是追着大模型卷,而是——
用真实业务场景反推数据需求;
构建自己的“小型数据工厂”;
成为下一个领域垂直的“数据炼金师”。
未来属于会'玩转数据'的人——能主动发现问题、收集信息、加工处理,然后快速喂给AI的人。
关键不是你手里有多少数据,而是你有没有把数据变成价值的本事。
第四节|下一战,不是模型,是数据接口
Scale AI 不是在“卖数据”。
这家公司真正要做的,是成为AI时代的'数据代工厂'——为最关键的客户和最重要的应用场景,提供从数据到AI能力的端到端解决方案。
Alex Wang 在访谈最后透露了一句话,有人听完觉得“太远”,但懂的人知道,这是个信号:
数据不是配料,它是原材料本身。
而工厂,就是 AI 的操作系统——控制AI如何思考、如何学习、如何进化。
Alex Wang 表达的意思是:数据并非 AI 的一部分,而是让 AI 运转起来所必需的基础原料,这套“工厂”流程其实就是 AI 的底层运行框架
我们今天讨论的 AI,不应该只是一个模型能生成多少字、回答多精准——而是它有没有能力长期、稳定、按需完成任务。而这些任务背后,全靠一个稳定喂数据、改数据、再训练的后台机制。
谁控制了这个机制,谁就掌握了 AI 能力的主动权。
✅ 数据工厂,正在变成 AI 的 '总包商'
数据工厂,正被推向一个更高的位置——它不再是模型训练的配套环节,而是 AI 工作方式的定义平台。
Alex 举了个简单例子:
如果你让 AI 来帮你做“理赔审核”,它不是扫一眼表格就能下结论,而是要:
看得懂不同格式的材料;
分析具体情节是否符合赔付范围;
理解各机构之间不同的判断标准;
给出“赔”或“不赔”的清晰理由。
这不是一次判断,而是一整套理解任务的过程。而背后,必须反复训练模型对这类任务的“学习路径”——每次训练,都伴随着新一轮的数据生成、清洗、打标签、回流。
Alex Wang 回答:
“最终,我们希望每个任务背后都有一条‘数据链路’,这条链路就像一个接口,让 AI 知道它该干什么、怎么学会。”
说白了,Scale 想做的不是数据搬运工,而是打造一套 “任务级的数据接口”平台——你有一个任务,它就能搭出一条专属的数据管线,让模型吃进去、消化掉、理解透。
这听起来,确实很像一个“操作系统”。
但比起我们熟悉的 Windows,Scale 更像是AI 工业世界的“数据总包商”:既负责设计训练标准,又操盘数据执行,还能把这套“管道”作为服务给其他 AI 模型调用。
它要做的,是三件事:
把“喂数据”这件事标准化;
让模型能随时调用不同任务的数据组装能力;
最终把这条数据链路,嵌入到模型的接口中。
这不是传统意义上的数据标注,也不是企业信息化系统。
这是在重新定义——AI 应该如何工作。
✅ meta 押注的,是这条“入口权”
为什么扎克伯格花 143 亿美元收购 Scale AI?
表面上看,是为了获得Alex Wang这个战时CEO的领导能力。
而是他意识到:
未来的每个 AI 应用场景,都会有一个“数据喂养接口”。谁控制这个接口,谁就控制了整个生态的起点。
正如操作系统之于PC,App Store之于手机,数据工厂也在成为AGI时代的重要基础设施之一。
Alex Wang 的 Scale AI,也许并不掌握模型,但他掌握如何让 AI 学得更像人类的方法论——
模型为什么学、怎么学、学得像不像人。
或许他没有造出 GPT-5,但他正在搭建 GPT-6 所需要的“数据高速路”。
如果说,AI 是一场军备竞赛,模型是“坦克”,算力是“油箱”,那数据工厂,就是那座隐藏在后方、源源不断产出弹药的“军工厂”。
更重要的是:这家军工厂,想要的不只是生产标准弹药,而是为每种作战任务定制专用武器。
结语|AI 战争,打响在数据工厂
扎克伯格不是在买一家数据服务商。
他是在收编一套 AI 能力的底层流程,把数据从“外包资源”变成“内部资产”,再反手嵌入到 meta 每一个 AI 工具里。
而 Alex Wang,则把这套流程打磨成了工厂模板: 从原料收集、精细加工,到微调反馈、迭代出厂——一套能喂 AI、改 AI、放大 AI 的工业方式。
这正是 Scale AI 的野心:不是站在模型后面服务,而是站在模型前面定义它该做什么。
未来三年,大模型能力很可能趋同,但决定胜负的,不是谁参数多,而是谁能掌控一条“数据-反馈-迭代”的闭环通路。
如果说模型是大脑,那数据工厂,就是大脑的“神经供应链”。
中国玩家该做的,不是再去追谁训练得快、烧钱多,而是:
✅ 反推业务任务,构建专属“数据链”;
✅ 学会向 AI 明确表达“你要学什么”;
✅ 从标注工,转型为“数据建筑师”。
别等模型帮你找答案,下一轮的胜者,是能喂模型问题的人。