
摘要:
当3D生成也“卷”成风口,谁在真正做基建?
科技《浪潮》出品
作者|董雨晴
2026年,AI生成赛道正经历一场新的狂欢。视频生成卷到几秒,世界模型成为每家公司的标配故事,3D生成作为“构造虚拟世界的基础代码”被推上风口。融资消息铺天盖地,估值数字令人眩晕,几乎所有人都急着证明自己能构建那个“最终世界”。
但在赛道的喧嚣里,一家成立于2020年的公司显得有点另类。
影眸科技,从上海科技大学实验室走出来的3D生成团队,以核心产品Hyper3D为基础,以3D生成大模型Rodin为引擎,定位于面向真实工业流程的高质量、可控、生产级(Production-Ready)3D资产生成。
在世界模型融资火热的当下,他们选择死磕的是一个更底层、更难、也更“不性感”的问题:如何让AI生成的3D模型,真正能被工业级场景所使用——无论是3A游戏的雕刻级模型,还是手游的Low Poly布线,抑或是工业级3D打印千万面的硬表面精度。

他们拿过多次SIGGRAPH最佳论文及提名,首创了3D原生的技术框架CLAY,如今全球有大几百万用户,七八成收入来自海外。当同行们争先恐后往“世界模型”的概念上贴时,Hyper3D选择扎进游戏、3D打印、工业设计这些垂直场景里做“脏活累活”——比如为了让3D打印用户更方便,在模型生成时悄悄优化重心,让它倾向于“站在平面上”。
他们最新推出的全球首个千万面级模型3D生成模型Rodin Gen-2.5,开创性地将类大语言模型的运行逻辑引入3D生成领域,为用户提供五档可调生成模式,实现4秒到80秒的生成时间控制,针对不同场景展现出极强的适配性,并同步推出全球首个12K精度的原生3D贴图模型。
更特别的是这个团队的底色:四个创始人全是忠实的Blender用户,自己建模、自己渲染、自己做产品的直接用户。用他们自己的话说,“我们可能是学术圈里少数真正理解工业流水线上那些需求的人。”
影眸科技目前有60人,技术占三分之二,平均年龄只有25岁。
科技了解到,影眸科技在近期完成了新一轮数亿元人民币融资。这轮融资由凯辉基金、上海国投先导领投,老股东持续跟投。
当3D生成赛道从“能生成”卷到“能可用”,这群经历过元宇宙泡沫的年轻创业者,选择了一条更慢、更稳的路。
以下是科技和影眸科技CEO吴迪、CTO张启煊的对话实录,经编辑发布:

“3D大部分实际是工业型工作”
科技:世界模型现在这么火,这是不是让你们更忙了?
吴迪:一直都挺忙的。创业该到哪个阶段该忙就得忙。
张启煊:但这两天变空了,新模型上线之后这一周确实比之前轻松了一些。
科技:从2025年开始看起来你们节奏突然快了,今年初CES上黄仁勋的KeyNote使用了你们的产品,大家对你们的认知度又破了圈。
张启煊:我觉得是因为3D生成质量提升之后,用途越来越广了。其他模态发展得好,也反向带动了3D演进。最早很多国内游戏公司愿意尝试3D生成,就是因为他们看到了图片生成带来的价值,觉得3D也是成本大头,那会也有人开始接触我们,即使当时我们还不ready。
科技:关键是什么时候发现这事儿“ready”了?可控了,就觉得可以商业化应用了?
吴迪:我觉得从一开始就可以商业化应用,但很大程度取决于用户对这件事的接受度有多高。原来大家不管做游戏还是手搓模型,一整条pipeline已经非常完整了。怎么样让大家接受“先用AI生成,后面再人工处理”这个逻辑?大家花了一年的时间,接触包括我们在内的各种3D生成工具,慢慢开始接受这个逻辑。或者说,不得不接受。
张启煊:图像和文字领域大部分是创作型工作,但3D大部分是工业型工作。工业型工作有个问题——你得交付,有明确的工程和档期。它不像图片有80%概率半小时出来,剩下40%三天内出不来。3D对确定性要求更高,比如我建模三天后必须交付,不能接受一个60%概率靠谱、40%可能卡住的东西。
科技:去年大家开始喊“快能工业化应用了”,今年算是明显的转折点吗?
张启煊:接受度提升,模型质量只是次要因素。最主要的是环境变了——已经有好的C端产品集成了3D生成能力,很多大公司完成了跟我们这样的公司的磨合,把我们集成到他们的流水线和创作管线里。其他公司看到,就得跟着走。
科技:往前面倒一些,之前做数字人的时候声量没现在这么大?
吴迪:那时候声量也不大,只是做数字人的公司太少了。最开始做的也是3D,只是3D的数字形象。先搭了个穹顶光场设备,采了很多数字角色,先做了3D数字角色生成。那时候大家都想着元宇宙,进去得有个3D形象,不可能让每个人都到我们球里来扫。所以我们用球扫了很多影视级数字资产,再训练一个生成网络,让用户直接通过照片生成。那是第一次用diffusion做3D生成。
后来元宇宙赛道逐步萎缩,客户回归到传统图形学行业,比如游戏、电影特效。要服务好这些客户,就不能只生成人像,必须什么都能生成,所以才选了3D生成这个方向。
中间也纠结过,3D生成特别难做。那时候市面上主要用“2D升3D”的技术路径,但我们早年在游戏、影视领域撞了很多南墙,知道那种方法满足不了使用需求。所以全新做了一个3D原生的技术框架,就是拿了SIGGRAPH最佳论文提名的CLAY。之后3D原生的技术路径也成了现在主流的研发方向。我们的产品不是第一个上线的,就是因为中间做了很多原创性研发。
科技:现阶段各家技术没有太大差异吗?只是工程更强一些?
张启煊:分层面看。架构级的东西,大家都是Diffusion Transformer、Flow Matching,这种底层架构上3D跟图像、音频之间都没区别,就两条路——文本的GPT路线(next token predict)和其他模态的diffusion或flow matching路线。但决定模型好坏的不是这些,是细节设计,比如通过什么结构设计去enable编辑能力和控制能力。大架构上我们在等下一个GPT出现,但真正拉开差距的是底层设计。
科技:大厂买单时看重什么?你们觉得赛道已经ready了吗?
张启煊:还差远了。3D相比其他模态有个很大区别——其他是消费级,大家要求比较一致。3D是工业,不同下游场景要的内容差异巨大。刚刚吴迪也提了,3D打印、游戏、工业生产要的是三种完全不同的模型,包括表面风格和输出制式的不同,都需要去适配。
现在能满足的情景还比较少。以游戏为例,我们的Rodin Gen-2.5的Extreme High模式慢慢能满足雕刻级的模型需求,但最后放到手游里的不是雕刻级模型,是Low Poly模型,你得专门设置网络结构让输出布线合理的Low Poly(低精度)。所以一线3D生成公司都不止做一条路线,我们既有生成高质量表面的flow matching模型,也有输出Low Poly(低精度)的next token predict模型。3D行业结构太复杂了,不是说到了临界点所有行业就能用。
科技:再具体说说,游戏和3D打印分别看重什么?
张启煊:游戏里不同阶段、不同工序看重的不一样。3A游戏在原型概念阶段看你模型的绝对质量,因为他们会自己去做后面的减面优化、拓扑、布线,看的是雕塑级的绝对质量。但手游或非3A游戏,他很注重拓扑和Low Poly模型的质量,要考虑下游应用的性能,看简面后布线是否合理、是否适合做动画。
3D打印只把模型打印出来,绝对表面质量很重要。还有一类是打产品原型,表面的平整度很关键——如果是个高细节模型但杯子表面打出来坑坑洼洼,那不行。

首次把思考模式引入3D领域
科技:Rodin Gen-2.5比较重大的进展是什么?
吴迪:我们第一次把“思考深度”(thinking effort)的模式引入3D,Rodin Gen-2.5提供五档可调的思考深度,可以满足快速草稿设计到高保真成品资产制作的不同场景需求。就像大家用豆包时,复杂任务用专家模型,简单任务用快速模型。在3D里我们是第一次引入这个概念。因为3D在不同场景里有不同评价指标,网上任意一个简单的3D测评其实都不公允,没有限定场景的测评标准。
3D用在打印、工业、游戏里,评价标准都不一样。3D打印要更多细节,可以直接打出来呈现在面前;游戏里反而需要更低的面数、更好的拓扑结构、更加可用的材质;工业里需要把硬表面、转角、倒角表达得特别正确。
这些不同领域对模型需求都不一样。以前用户没法选择自己要什么偏好的模型,这个版本里用户可以通过一个选项来控制最终输出结果,适配使用场景。以前做3D打印可能更多用A家,做游戏更多用B家,现在可以在一个模型里把需求全部完成。
科技:做这种更加精细化的分类,需要突破哪些问题?
张启煊:Gen-2.5 的核心架构创新,是把“表征长度”从一个固定参数变成了一个可学习、可伸缩的变量。模型不再为所有物体分配等量算力,而是像 LLM 做推理时扩展那样,按对象复杂度自适应分配计算预算。这也为未来我们与LLM的深度结合提供了可能性。这一策略最早在我们的CLAY框架中被提出。
比如UGC场景,国外有些UGC游戏,国内也有项目,他们倾向于用我们的快速模式。去年跟《蛋仔派对》一起做了个有标杆意义的项目,当时生成一个模型要70秒,对C端用户来说太久了——图片最快三四秒就能搞定,3D模型70秒实在难等。
现在这个版本里,最快4秒就能完成生成,这是质变,UGC环节从只能在关卡编辑器里用,变成甚至能实时使用。当然4秒生成的模型质量相对差一些,但如果是手游里可能只占几千个像素的小东西,那就足够了。
对专业创作型用户,要用于雕刻甚至高精细度工业级3D打印的,我们支持80秒的几何生成,出来是千万面的模型,能直接用。Rodin Gen- 1.5的时候,我们想的是给每个行业做一个分支风格,推出了focal高细节、zero低细节、turbo快速、标准版。到Gen-2.5发现大部分需求最后映射到时间上,所以用时间控制来调节,用不同的思考深度来自适应不同场景。这些设计很大程度来自图像生成和文本生成模型的工程化经验,我们现在整个方法论跟其他模态越来越像。
科技:你们服务不同类型公司,是跟着他们做适配,还是希望他们开箱即用?
张启煊:我们给他们提供足够选项,指向他们要的那种风格。这件事据我观察只有我们做了。但这不只是产品问题,还是模型能力问题。
科技:但我们听起来会觉得像工程问题,不是模型问题?
张启煊:你觉得纯文本模型怎么生成图像?你需要训一个专门的图像让它能解码成图像。所以这是由产品需求产生的、在模型侧要重新设计和训练才能实现的事。
科技:只有你们在这么做?
张启煊:大家都聪明,应该都能看到这个机会,但不是所有模型团队都有这个底层能力。
科技:需要什么交叉能力?
张启煊:3D原生的技术框架基本就是CLAY那时候提出来的,现在有很多变体和创新,开源社区也有不错的工作。但我们对这套框架的理解比大家早至少半年。
科技:半年时间算是你们的技术窗口期。
张启煊:有些feature大家很想要,花了半年也没做出来;有些半年就能做出来。
科技:你们那个“分件”功能是怎么磕出来的?
张启煊:传统方法是给三维模型每个点分配类别,比如杯底、杯身、杯沿。但以零件为单位的数据量少,边界分不清楚,做出来边缘坑坑洼洼,中间可能突然有个孤岛,因为高光或表面起伏就觉得不属于这个类了。这其实是非生成式的思路,先聚类再人工涂边缘。
我们搞了快一年效果都不满意。有天跟另一个联创张文龙闲聊,说3D生成下一步是什么?有人说是4D,是时间。我说会不会不是时间,是由时间引发的物理状态和动态变化?比如“爆炸”?能不能用爆炸做3D生成?
第二天他就给了我一个demo。我们用已经训好的3D生成大模型,给它加了个特殊的ControlNet,让它在给定三维模型基础上直接生成“爆炸”后的状态。这个思路借鉴自语言模型——大语言模型时代用生成的方式做理解,而不是显式聚类划线。从决定做到做出来就一个半月,是至今最快的项目,效果也是最好的。
这篇文章至今仍能看到不少类似思路的跟进工作,何恺明老师团队最近那篇用图像编辑模型做分割的文章(Vision Banana),底层思想跟我们一脉相承。
科技:那3D原生贴图呢,这里面有哪些技术突破?
张启煊:传统方法是拍多角度图像投影回去,总有投不到的地方,文字生成不了,颜色有断层,遮挡地方不精准。我们做的是让颜色直接从三维模型上“长”出来——每个点长出一个颜色值。用几乎等于训了一个图像生成模型的资源,让这个模型同时具备图像生成和三维贴图生成能力。给它一个平面的三维模型能生成图像,给一个三维模型能长出贴图。它能生成文字级图案,精度能到12K,人脸的话眼角细纹都清清楚楚。

做大厂做不了的脏活累活
科技:如果字节等大厂突然决定做这块,对你们有什么影响?
吴迪:一直有大厂在。3D生成分两步,一部分是生成3D模型,第二步是怎么解决这个模型在不同场景里用的问题。大厂一般只做第一步,证明自己有各种模态的能力。但跟工业适配、跟游戏适配、做3D打印下沉,大厂很难每个场景都做好。这里面有很多脏活累活,不只是研发问题。
科技:举个“脏活累活”的例子?
张启煊:比如这代模型有个潜在优化——生成的东西重心倾向于站在平面上。因为我们发现很多3D打印用户有这个需求。如果是个通用产品,大厂很可能不会对这个点优化。对这类人群来说,我们就是更好的选择。
吴迪:2021年做数字人的时候就发现了。电影特效、游戏内容制作对模型质量要求特别高。这是我们很重要的壁垒,从那时起就有这个思维,产品会更可应用。所以我们的B端大客户比其他同类公司多。
科技:你们现在发力做专业C端了,这是怎么思考的。
吴迪:专业C端市场现在跑的很好,这里面是有机会的。对我们来说其实没区别,B端和C端提供的产品形态很一致,可能就是运营角度偏C端一点。而且很多B端用户也是从C端转过来的。
科技:你们现在烧钱吗?
吴迪:投放可控,产品能力强天然留存更高,投放不是快速消耗的状态。
科技:接下来侧重增长还是技术?
吴迪:并行。产品到了可以做好增长和投放的阶段,接下来还是会聚焦游戏、3D打印、工业设计、具身智能、空间计算这些垂直领域,从各个角度积累模型能力,deliver出更好的产品。
张启煊:3D不是消费级模态,普通用户很难直接使用,得通过3D打印、Vision Pro、游戏间接消费。我们直接对接的不是大众用户,是大众用户上层的应用产品。
吴迪:我们也看好未来C端,你会发现当年元宇宙那批公司很多没声音了,只有我们还坚定走在通往元宇宙的路上。元宇宙没成主要是显示介质没更新,还有content创建成本太高,要解决的就是这两个问题。
张启煊:热点过去后,做热点的公司会退化回真实做的事情。元宇宙退化回虚拟场景、数字角色、社交应用。现在讲世界模型,最后会退化回机器人控制策略、实时视频生成、场景生成。只是在热点下被包装成统一概念。
科技:为什么不讲“世界模型”的故事?没被投资人骂过吗?
吴迪:好问题,是有投资人替我们着急,毕竟世界模型是当下最热的叙事。
张启煊:揭开“世界模型”这层纱,最后做的还是场景生成、实时视频生成那几件事。
科技:几乎所有做生成的公司突然都在说自己在做世界模型。
张启煊:3D生成肯定是各种模态生成里很重要的一部分,但我们不会因为市场概念热而去做。
科技:你们看起来不像95后,像上一代创业者,稳扎稳打。
张启煊:创业6年了,经历过周期。
科技:你们觉得自己和其他生成公司的最大区别是什么?
张启煊:我们四个创始人全是忠实的Blender用户,自己会建模、会渲染、会做宣传片。
吴迪:都是被逼的,以前在实验室发论文要做宣传片,又没钱找别人。
张启煊:我们是自己产品的直接用户,对需求和产品定义有更深的理解。
科技:你们用自然语言编辑3D模型,难在哪?
张启煊:跟图像编辑一样的困难——怎么确保编辑以外的结构保持不变。需要从图生3D、文生3D拓展到3D生3D,难度像GPT-4到GPT-4V,要对原来的3D模型有理解。
科技:你们接下来最想拓什么客户?
张启煊:工业领域,汽车设计、充电宝设计这种外观类。现在行业里,其实我们是为数不多还在死磕3D的。3D的盘子,工业比娱乐更大。
科技:你们公司现在多少人?
吴迪:60,技术占三分之二。





京公网安备 11011402013531号