当前位置：首页 » 资讯 » 新科技 » 正文

数亿元融资、增速超400%！00后创办的影眸科技，凭什么被大厂追投？ | 浪潮对话

IP属地中国·北京 编辑：陈阳凤凰网 时间：2026-06-23 18:07:31

摘要：
当3D生成也“卷”成风口，谁在真正做基建？
科技《浪潮》出品
作者｜董雨晴
2026年，AI生成赛道正经历一场新的狂欢。视频生成卷到几秒，世界模型成为每家公司的标配故事，3D生成作为“构造虚拟世界的基础代码”被推上风口。融资消息铺天盖地，估值数字令人眩晕，几乎所有人都急着证明自己能构建那个“最终世界”。
但在赛道的喧嚣里，一家成立于2020年的公司显得有点另类。
影眸科技，从上海科技大学实验室走出来的3D生成团队，以核心产品Hyper3D为基础，以3D生成大模型Rodin为引擎，定位于面向真实工业流程的高质量、可控、生产级（Production-Ready）3D资产生成。
在世界模型融资火热的当下，他们选择死磕的是一个更底层、更难、也更“不性感”的问题：如何让AI生成的3D模型，真正能被工业级场景所使用——无论是3A游戏的雕刻级模型，还是手游的Low Poly布线，抑或是工业级3D打印千万面的硬表面精度。
他们拿过多次SIGGRAPH最佳论文及提名，首创了3D原生的技术框架CLAY，如今全球有大几百万用户，七八成收入来自海外。当同行们争先恐后往“世界模型”的概念上贴时，Hyper3D选择扎进游戏、3D打印、工业设计这些垂直场景里做“脏活累活”——比如为了让3D打印用户更方便，在模型生成时悄悄优化重心，让它倾向于“站在平面上”。
他们最新推出的全球首个千万面级模型3D生成模型Rodin Gen-2.5，开创性地将类大语言模型的运行逻辑引入3D生成领域，为用户提供五档可调生成模式，实现4秒到80秒的生成时间控制，针对不同场景展现出极强的适配性，并同步推出全球首个12K精度的原生3D贴图模型。
更特别的是这个团队的底色：四个创始人全是忠实的Blender用户，自己建模、自己渲染、自己做产品的直接用户。用他们自己的话说，“我们可能是学术圈里少数真正理解工业流水线上那些需求的人。”
影眸科技目前有60人，技术占三分之二，平均年龄只有25岁。
科技了解到，影眸科技在近期完成了新一轮数亿元人民币融资。这轮融资由凯辉基金、上海国投先导领投，老股东持续跟投。
当3D生成赛道从“能生成”卷到“能可用”，这群经历过元宇宙泡沫的年轻创业者，选择了一条更慢、更稳的路。
以下是科技和影眸科技CEO吴迪、CTO张启煊的对话实录，经编辑发布：
“3D大部分实际是工业型工作”
科技：世界模型现在这么火，这是不是让你们更忙了？
吴迪：一直都挺忙的。创业该到哪个阶段该忙就得忙。
张启煊：但这两天变空了，新模型上线之后这一周确实比之前轻松了一些。
科技：从2025年开始看起来你们节奏突然快了，今年初CES上黄仁勋的KeyNote使用了你们的产品，大家对你们的认知度又破了圈。
张启煊：我觉得是因为3D生成质量提升之后，用途越来越广了。其他模态发展得好，也反向带动了3D演进。最早很多国内游戏公司愿意尝试3D生成，就是因为他们看到了图片生成带来的价值，觉得3D也是成本大头，那会也有人开始接触我们，即使当时我们还不ready。
科技：关键是什么时候发现这事儿“ready”了？可控了，就觉得可以商业化应用了？
吴迪：我觉得从一开始就可以商业化应用，但很大程度取决于用户对这件事的接受度有多高。原来大家不管做游戏还是手搓模型，一整条pipeline已经非常完整了。怎么样让大家接受“先用AI生成，后面再人工处理”这个逻辑？大家花了一年的时间，接触包括我们在内的各种3D生成工具，慢慢开始接受这个逻辑。或者说，不得不接受。
张启煊：图像和文字领域大部分是创作型工作，但3D大部分是工业型工作。工业型工作有个问题——你得交付，有明确的工程和档期。它不像图片有80%概率半小时出来，剩下40%三天内出不来。3D对确定性要求更高，比如我建模三天后必须交付，不能接受一个60%概率靠谱、40%可能卡住的东西。
科技：去年大家开始喊“快能工业化应用了”，今年算是明显的转折点吗？
张启煊：接受度提升，模型质量只是次要因素。最主要的是环境变了——已经有好的C端产品集成了3D生成能力，很多大公司完成了跟我们这样的公司的磨合，把我们集成到他们的流水线和创作管线里。其他公司看到，就得跟着走。
科技：往前面倒一些，之前做数字人的时候声量没现在这么大？
吴迪：那时候声量也不大，只是做数字人的公司太少了。最开始做的也是3D，只是3D的数字形象。先搭了个穹顶光场设备，采了很多数字角色，先做了3D数字角色生成。那时候大家都想着元宇宙，进去得有个3D形象，不可能让每个人都到我们球里来扫。所以我们用球扫了很多影视级数字资产，再训练一个生成网络，让用户直接通过照片生成。那是第一次用diffusion做3D生成。
后来元宇宙赛道逐步萎缩，客户回归到传统图形学行业，比如游戏、电影特效。要服务好这些客户，就不能只生成人像，必须什么都能生成，所以才选了3D生成这个方向。
中间也纠结过，3D生成特别难做。那时候市面上主要用“2D升3D”的技术路径，但我们早年在游戏、影视领域撞了很多南墙，知道那种方法满足不了使用需求。所以全新做了一个3D原生的技术框架，就是拿了SIGGRAPH最佳论文提名的CLAY。之后3D原生的技术路径也成了现在主流的研发方向。我们的产品不是第一个上线的，就是因为中间做了很多原创性研发。
科技：现阶段各家技术没有太大差异吗？只是工程更强一些？
张启煊：分层面看。架构级的东西，大家都是Diffusion Transformer、Flow Matching，这种底层架构上3D跟图像、音频之间都没区别，就两条路——文本的GPT路线（next token predict）和其他模态的diffusion或flow matching路线。但决定模型好坏的不是这些，是细节设计，比如通过什么结构设计去enable编辑能力和控制能力。大架构上我们在等下一个GPT出现，但真正拉开差距的是底层设计。
科技：大厂买单时看重什么？你们觉得赛道已经ready了吗？
张启煊：还差远了。3D相比其他模态有个很大区别——其他是消费级，大家要求比较一致。3D是工业，不同下游场景要的内容差异巨大。刚刚吴迪也提了，3D打印、游戏、工业生产要的是三种完全不同的模型，包括表面风格和输出制式的不同，都需要去适配。
现在能满足的情景还比较少。以游戏为例，我们的Rodin Gen-2.5的Extreme High模式慢慢能满足雕刻级的模型需求，但最后放到手游里的不是雕刻级模型，是Low Poly模型，你得专门设置网络结构让输出布线合理的Low Poly（低精度）。所以一线3D生成公司都不止做一条路线，我们既有生成高质量表面的flow matching模型，也有输出Low Poly（低精度）的next token predict模型。3D行业结构太复杂了，不是说到了临界点所有行业就能用。
科技：再具体说说，游戏和3D打印分别看重什么？
张启煊：游戏里不同阶段、不同工序看重的不一样。3A游戏在原型概念阶段看你模型的绝对质量，因为他们会自己去做后面的减面优化、拓扑、布线，看的是雕塑级的绝对质量。但手游或非3A游戏，他很注重拓扑和Low Poly模型的质量，要考虑下游应用的性能，看简面后布线是否合理、是否适合做动画。
3D打印只把模型打印出来，绝对表面质量很重要。还有一类是打产品原型，表面的平整度很关键——如果是个高细节模型但杯子表面打出来坑坑洼洼，那不行。
首次把思考模式引入3D领域
科技：Rodin Gen-2.5比较重大的进展是什么？
吴迪：我们第一次把“思考深度”（thinking effort）的模式引入3D，Rodin Gen-2.5提供五档可调的思考深度，可以满足快速草稿设计到高保真成品资产制作的不同场景需求。就像大家用豆包时，复杂任务用专家模型，简单任务用快速模型。在3D里我们是第一次引入这个概念。因为3D在不同场景里有不同评价指标，网上任意一个简单的3D测评其实都不公允，没有限定场景的测评标准。
3D用在打印、工业、游戏里，评价标准都不一样。3D打印要更多细节，可以直接打出来呈现在面前；游戏里反而需要更低的面数、更好的拓扑结构、更加可用的材质；工业里需要把硬表面、转角、倒角表达得特别正确。
这些不同领域对模型需求都不一样。以前用户没法选择自己要什么偏好的模型，这个版本里用户可以通过一个选项来控制最终输出结果，适配使用场景。以前做3D打印可能更多用A家，做游戏更多用B家，现在可以在一个模型里把需求全部完成。
科技：做这种更加精细化的分类，需要突破哪些问题？
张启煊：Gen-2.5 的核心架构创新，是把“表征长度”从一个固定参数变成了一个可学习、可伸缩的变量。模型不再为所有物体分配等量算力，而是像 LLM 做推理时扩展那样，按对象复杂度自适应分配计算预算。这也为未来我们与LLM的深度结合提供了可能性。这一策略最早在我们的CLAY框架中被提出。
比如UGC场景，国外有些UGC游戏，国内也有项目，他们倾向于用我们的快速模式。去年跟《蛋仔派对》一起做了个有标杆意义的项目，当时生成一个模型要70秒，对C端用户来说太久了——图片最快三四秒就能搞定，3D模型70秒实在难等。
现在这个版本里，最快4秒就能完成生成，这是质变，UGC环节从只能在关卡编辑器里用，变成甚至能实时使用。当然4秒生成的模型质量相对差一些，但如果是手游里可能只占几千个像素的小东西，那就足够了。
对专业创作型用户，要用于雕刻甚至高精细度工业级3D打印的，我们支持80秒的几何生成，出来是千万面的模型，能直接用。Rodin Gen- 1.5的时候，我们想的是给每个行业做一个分支风格，推出了focal高细节、zero低细节、turbo快速、标准版。到Gen-2.5发现大部分需求最后映射到时间上，所以用时间控制来调节，用不同的思考深度来自适应不同场景。这些设计很大程度来自图像生成和文本生成模型的工程化经验，我们现在整个方法论跟其他模态越来越像。
科技：你们服务不同类型公司，是跟着他们做适配，还是希望他们开箱即用？
张启煊：我们给他们提供足够选项，指向他们要的那种风格。这件事据我观察只有我们做了。但这不只是产品问题，还是模型能力问题。
科技：但我们听起来会觉得像工程问题，不是模型问题？
张启煊：你觉得纯文本模型怎么生成图像？你需要训一个专门的图像让它能解码成图像。所以这是由产品需求产生的、在模型侧要重新设计和训练才能实现的事。
科技：只有你们在这么做？
张启煊：大家都聪明，应该都能看到这个机会，但不是所有模型团队都有这个底层能力。
科技：需要什么交叉能力？
张启煊：3D原生的技术框架基本就是CLAY那时候提出来的，现在有很多变体和创新，开源社区也有不错的工作。但我们对这套框架的理解比大家早至少半年。
科技：半年时间算是你们的技术窗口期。
张启煊：有些feature大家很想要，花了半年也没做出来；有些半年就能做出来。
科技：你们那个“分件”功能是怎么磕出来的？
张启煊：传统方法是给三维模型每个点分配类别，比如杯底、杯身、杯沿。但以零件为单位的数据量少，边界分不清楚，做出来边缘坑坑洼洼，中间可能突然有个孤岛，因为高光或表面起伏就觉得不属于这个类了。这其实是非生成式的思路，先聚类再人工涂边缘。
我们搞了快一年效果都不满意。有天跟另一个联创张文龙闲聊，说3D生成下一步是什么？有人说是4D，是时间。我说会不会不是时间，是由时间引发的物理状态和动态变化？比如“爆炸”？能不能用爆炸做3D生成？
第二天他就给了我一个demo。我们用已经训好的3D生成大模型，给它加了个特殊的ControlNet，让它在给定三维模型基础上直接生成“爆炸”后的状态。这个思路借鉴自语言模型——大语言模型时代用生成的方式做理解，而不是显式聚类划线。从决定做到做出来就一个半月，是至今最快的项目，效果也是最好的。
这篇文章至今仍能看到不少类似思路的跟进工作，何恺明老师团队最近那篇用图像编辑模型做分割的文章（Vision Banana），底层思想跟我们一脉相承。
科技：那3D原生贴图呢，这里面有哪些技术突破？
张启煊：传统方法是拍多角度图像投影回去，总有投不到的地方，文字生成不了，颜色有断层，遮挡地方不精准。我们做的是让颜色直接从三维模型上“长”出来——每个点长出一个颜色值。用几乎等于训了一个图像生成模型的资源，让这个模型同时具备图像生成和三维贴图生成能力。给它一个平面的三维模型能生成图像，给一个三维模型能长出贴图。它能生成文字级图案，精度能到12K，人脸的话眼角细纹都清清楚楚。
做大厂做不了的脏活累活
科技：如果字节等大厂突然决定做这块，对你们有什么影响？
吴迪：一直有大厂在。3D生成分两步，一部分是生成3D模型，第二步是怎么解决这个模型在不同场景里用的问题。大厂一般只做第一步，证明自己有各种模态的能力。但跟工业适配、跟游戏适配、做3D打印下沉，大厂很难每个场景都做好。这里面有很多脏活累活，不只是研发问题。
科技：举个“脏活累活”的例子？
张启煊：比如这代模型有个潜在优化——生成的东西重心倾向于站在平面上。因为我们发现很多3D打印用户有这个需求。如果是个通用产品，大厂很可能不会对这个点优化。对这类人群来说，我们就是更好的选择。
吴迪：2021年做数字人的时候就发现了。电影特效、游戏内容制作对模型质量要求特别高。这是我们很重要的壁垒，从那时起就有这个思维，产品会更可应用。所以我们的B端大客户比其他同类公司多。
科技：你们现在发力做专业C端了，这是怎么思考的。
吴迪：专业C端市场现在跑的很好，这里面是有机会的。对我们来说其实没区别，B端和C端提供的产品形态很一致，可能就是运营角度偏C端一点。而且很多B端用户也是从C端转过来的。
科技：你们现在烧钱吗？
吴迪：投放可控，产品能力强天然留存更高，投放不是快速消耗的状态。
科技：接下来侧重增长还是技术？
吴迪：并行。产品到了可以做好增长和投放的阶段，接下来还是会聚焦游戏、3D打印、工业设计、具身智能、空间计算这些垂直领域，从各个角度积累模型能力，deliver出更好的产品。
张启煊：3D不是消费级模态，普通用户很难直接使用，得通过3D打印、Vision Pro、游戏间接消费。我们直接对接的不是大众用户，是大众用户上层的应用产品。
吴迪：我们也看好未来C端，你会发现当年元宇宙那批公司很多没声音了，只有我们还坚定走在通往元宇宙的路上。元宇宙没成主要是显示介质没更新，还有content创建成本太高，要解决的就是这两个问题。
张启煊：热点过去后，做热点的公司会退化回真实做的事情。元宇宙退化回虚拟场景、数字角色、社交应用。现在讲世界模型，最后会退化回机器人控制策略、实时视频生成、场景生成。只是在热点下被包装成统一概念。
科技：为什么不讲“世界模型”的故事？没被投资人骂过吗？
吴迪：好问题，是有投资人替我们着急，毕竟世界模型是当下最热的叙事。
张启煊：揭开“世界模型”这层纱，最后做的还是场景生成、实时视频生成那几件事。
科技：几乎所有做生成的公司突然都在说自己在做世界模型。
张启煊：3D生成肯定是各种模态生成里很重要的一部分，但我们不会因为市场概念热而去做。
科技：你们看起来不像95后，像上一代创业者，稳扎稳打。
张启煊：创业6年了，经历过周期。
科技：你们觉得自己和其他生成公司的最大区别是什么？
张启煊：我们四个创始人全是忠实的Blender用户，自己会建模、会渲染、会做宣传片。
吴迪：都是被逼的，以前在实验室发论文要做宣传片，又没钱找别人。
张启煊：我们是自己产品的直接用户，对需求和产品定义有更深的理解。
科技：你们用自然语言编辑3D模型，难在哪？
张启煊：跟图像编辑一样的困难——怎么确保编辑以外的结构保持不变。需要从图生3D、文生3D拓展到3D生3D，难度像GPT-4到GPT-4V，要对原来的3D模型有理解。
科技：你们接下来最想拓什么客户？
张启煊：工业领域，汽车设计、充电宝设计这种外观类。现在行业里，其实我们是为数不多还在死磕3D的。3D的盘子，工业比娱乐更大。
科技：你们公司现在多少人？
吴迪：60，技术占三分之二。

标签：模型科技 张启煊 吴迪图像用户游戏赛道手游模态

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

被骂了一年的Codex，怎么突然爆了？

360发布AI安全报告：漏洞挖掘从模型能力涌现走向智能体工程实战

软银孙正义评马斯克太空数据中心方案：价值寥寥，AI 竞赛胜负取决于地面算力

陈立武访谈刷屏：英特尔将创造10倍回报

微软CEO喊话：停止AI霸权

微信上线高考AI志愿助手，可在搜一搜直接语音提问

全站最新

被骂了一年的Codex，怎么突然爆了？

360发布AI安全报告：漏洞挖掘从模型能力涌现走向智能体工程实战

软银孙正义评马斯克太空数据中心方案：价值寥寥，AI 竞赛胜负取决于地面算力

陈立武访谈刷屏：英特尔将创造10倍回报

热门推荐

IPO后又发债！SpaceX首度推出投资债券拟融资200亿美元

俞浩曾称中国仅雷军、余承东和自己3人懂汽车设计！追觅：造车正常推进专注海外

苏州科达增资至约5.7亿

星源材质成功登陆港交所 “A+H”上市首日H股大涨总市值近193亿港元

端午餐饮“冷热不均”：小长假难掀普涨潮，特色品牌成赢家

被曝出售部分日本游戏工作室股权？腾讯回应：保持对日本游戏市场长期投入

被骂了一年的Codex，怎么突然爆了？

360发布AI安全报告：漏洞挖掘从模型能力涌现走向智能体工程实战

软银孙正义评马斯克太空数据中心方案：价值寥寥，AI 竞赛胜负取决于地面算力

陈立武访谈刷屏：英特尔将创造10倍回报

微软CEO喊话：停止AI霸权

微信上线高考AI志愿助手，可在搜一搜直接语音提问

小鹏MONA首款SUV L03“极光紫”官图发布：对标30万级开发

企微agent开始内测，命名“大圆”

减重1亿斤背后，阿福决定不让大家孤军奋战