当前位置: 首页 » 资讯 » 新科技 » 正文

对话VideoTutor:用AI打造一个理科版多邻国

IP属地 中国·北京 硅星人 时间:2025-10-31 12:18:41


作者 | 黄小艺
邮箱 | huangxiaoyi@pingwest.com

AI教育赛道向来火热,但也是公认的“卷王”和资源密集型战场。在这个背景下,一个仅有六人的硅谷学生创业团队,却悄然创下了一项纪录。

他们的项目VideoTutor,一个“一句话生成AI视频讲解”的教育产品,在今年5月上线后,迅速获得了币安创始人赵长鹏(CZ)旗下的YZi Labs 领投,百度风投、锦秋基金、Amino Capital、BridgeOne Capital 以及多位知名投资人联合参投的1100万美元种子轮融资。


这不仅是近期AI教育领域的一笔大额融资,也是硅谷学生创业项目中规模最大的种子轮。

团队的背后,是两位极具故事性的创始人和CTO:一位是来自安徽小城、靠父母卖房支持留学、为创业梦想毅然辍学的大三学生Kai Zhao;另一位则是放弃谷歌高薪、“逃离大厂围城”的工程师James Zhan。

5个月,6个人,千万美元种子轮,他们要做什么?答案是一个专注于数学等理工科领域的AI“多邻国”。

这个定位直指其核心战略:用技术将昂贵的精英教育普惠化。 多邻国颠覆了高价的语言学校,而VideoTutor则瞄准了动辄上百美元一小时的美国高考(SAT/AP)教培市场。

实现这一点的武器,并非简单的模型“套壳”,而是其自研的“数学动画引擎”——它能让AI通过编程精准地“画图讲题”,从而以更低成本生产个性化教学视频,在商业上复刻多邻国模式的可扩展性。

我们也与创始人Kai Zhao和CTO James Zhan聊了聊,试图揭开这笔千万美元融资背后的秘密。

以下是对话实录:

从一张图到一部讲解视频,VideoTutor如何做到精准“可视化”?

硅星人:我看了你们的产品,有一句介绍是,“一句话生成专属视频的教育Agent”,可以解释一下吗?Agent具体是指什么?

Kai Zhao:好的。Agent的部分主要负责“规划教学内容”。我举个例子,当用户提问“求这个扇形中的阴影部分的面积”,我们的Agent会先调用基础大模型,进行教学Planning,规划好在这个视频里要讲哪些知识点,按什么顺序讲,生成对应的文字脚本。

然后,针对脚本中需要图形辅助理解的部分,比如这个扇形和阴影,我们自研的“数学动画引擎”就会被调用,渲染出对应的几何图形和动画。

硅星人:用户提问的方式呢?只能输入文字吗?如果用户想上传一张带有复杂几何图形的作业图片,让模型识别和讲解,可以实现吗?

Kai Zhao:完全可以,我们支持用户上传图片,然后基于图片里的题目进行讲解。

James Zhan:我来补充一下技术路线。如果你把一张包含复杂几何图形的题目图片直接发给ChatGPT这样的大语言模型,它很可能会生成错误的答案。你让它重新画一遍,它都会画错。这是因为现在大模型的多模态能力,对点、线、圆这些几何关系的理解是不够的。

所以我们是训练了一个深度学习小模型,它可以专门解析用户上传的几何图形,然后输出一段非常精确的、描述这个几何图形的文本。我们再把这段精确的文本交给大语言模型去理解,它就能准确地get到用户的问题,不会造成混乱。

硅星人:我明白了,这是你们在“看懂”用户输入上做的工作,那生成视频的精准度是怎么保证的?

James Zhan:这是我们的另一个优势。我们的做法不是像Sora那样用扩散模型去生成每个像素点,那种成本高、速度慢,且无法保证教学所需要的精确性。

我们的技术观念是给大语言模型“笔和纸”,然后教它如何画画。市面上有一个开源的数学动画引擎库,可以用代码来“画”出动画,最基本的思路就是让大模型去写这个库的代码,把动画渲染出来,我们也专门请教了那个库的作者。

硅星人:所以你们是用coding能力写代码,代码生成的视频,这和视频生成模型的概念完全不一样。现在各家模型coding的能力是卷得最快的,所以你们的视频生成效果也会越来越好。

James Zhan:是的,可以这么理解。在这个过程中,我们也做了很多工作。

比如,原版库上次更新是五六年前了,我们发现它是为“人”写代码设计的,因为大模型不懂这个库,所以直接写的话,效果就一塌糊涂。

我们又做了很多中间层,用算法计算元素位置、点线关系,并设计了一套新协议,去“教”大模型如何正确地为这个库写代码;然后又因为原版库不支持并行渲染,无论堆多少GPU,速度都很慢。最后我们基本重写了,提取出对理科场景有用的部分,舍弃掉用不上的,让它变得非常轻量,并且支持并行渲染。

这就是为什么我们的视频生成速度很快,而且动画效果非常精确。

硅星人:除了精准的动画,视频的文案脚本也很重要,能根据不同年级、不同知识点类型和用户的水平去调节解读方式吗?这部分是怎么优化的?

James Zhan:这部分主要靠提示词工程(prompt Engineering)。我们要求大模型生成的脚本不仅要规划得好,有开场白、有由浅入深的讲解、有总结,我们还希望它能带上一些小幽默或小段子。

我们下一个版本会完全展开个性化教学。用户刚来平台时,我们会通过问卷或小测试(Quiz)对他进行了解,打上标签,存入数据库。之后他再生成视频时,我们就会根据这些标签,为他定制专属的教学风格和内容。

瞄准美国高考,一个“不得不学”的主动学习场景

硅星人:你们最初是怎么想到要做这个的?是从技术出发,找到了一个差异化的场景,还是从用户需求出发?我对这个起源比较好奇。

Kai Zhao:这主要是从用户需求出发的,YouTube上有一个叫3Blue1Brown的频道,也是用动画讲解知识,有超7百万订阅,是YouTube最火的学习频道。如果有人问我们,动画讲解有人会喜欢吗?就可以看看这个频道订阅人数。


另外,我自己在美国也已经有三次教育领域的创业经历。大一的时候,我做了一款恋爱教育APP;大二的时候,我联合创办了另一个教育产品叫MathGPTPro。这个项目入选了奇绩创坛,之后我们拿到了130万美元的融资,再后来他们又申请了Y Combinator(YC),不过那个时候我已经离开了。

MathGPTPro和其他教育类产品一样,更多的是一种文字问答,瞄准的是作业解答场景。但在整个学习流程中,作业解答的场景链条比较短,在技术上也会成为一种类似于ChatGPT Wrapper 的天花板很低的产品,而我们希望能够满足学生更有意义、更有价值的学习和复习需求。

通过前面这些项目,我也意识到纯文字是无法满足用户需求的,回顾人类的学习方式,大家学习任何知识点都偏爱视频化,而且很多复杂的理科知识需要图形化的表达。那么,有没有什么好的技术手段能实现这种视频化教学呢?正是基于这种思考,我们研发了动画引擎技术来实现它。

当然,这个产品的成功也得益于几个关键节点:一是多模态AI技术的成熟;二是基础模型的代码生成能力的进步,比如Claude。另外还有一个契机,在我们之前,斯坦福大学有一个团队已经做过类似的产品,叫 Gatekeep.ai,也是通过一句话生成讲解视频,当时产生了很大的影响力。

硅星人:你们在对的时间做了对的事情,这方面的需求和市场也已经被初步验证过。

Kai Zhao:对,斯坦福的那个产品最终没有成功,原因是他们做的时候,基础模型的编程能力还不够成熟,而且他们没有在技术上攻克视频渲染算法和几何解析等难题。而我们团队的技术人员很多都是数学动画引擎的核心开发者,很好地解决了这些问题。

硅星人:其实市面上有很多AI教育产品,有的想模仿人类老师,有的想让学习过程更有趣,有的是让学生更快知道答案,有的主打个性化因材施教。你们的路线似乎更聚焦于单点功能,把视频讲解做到极致。你们是怎么看待不同路线的?

Kai Zhao:这是个好问题,我在这方面感触很深。我们可以把教育产品分为两大类:主动学习产品和被动学习产品。被动学习产品,比如很多少儿英语App,需要花很多心思去设计游戏化、反馈机制,让产品变得有趣,因为你需要考虑用户的学习动机,学习本身是反人性的。

而我们做的是主动学习场景。我们过滤掉了学习动机的问题,因为用户有非常明确的目标——考试。无论是中国高考还是美国高考,不管你感不感兴趣,都必须得学。主动学习场景对应的就是高考、职业培训、考证,因为你有这个目标,就必须逼着自己学。

至于更快知道答案,这类产品价值链比较短,很多时候更像一个“作业解答”工具,比如拍照搜题,最终付费的是学生,场景比较短。

硅星人:那美国高考场景的价值点在哪,用户有什么特点?

Kai Zhao:美国高考(如SAT)和国内高考很不同,80%的公立学校其实并不围绕高考内容进行教学。这意味着,学生如果想在SAT中取得好成绩,基本都需要靠自己报培训班、找校外辅导或在网络平台自学。这就创造了一个巨大的、学生有强烈主动学习意愿的市场。

而且这个市场的客单价非常高。一个美国家庭在孩子备考上投入两到三万美金(约十几万人民币)是很常见的。我们的产品能提供比真人网课更便宜、效果甚至更好的个性化学习体验,这里的价值潜力是巨大的。

硅星人:我看到你们网站上有一个很有趣的案例,是讲解“为什么芬达冰镇的更好喝”。这似乎超出了备考的范畴。

Kai Zhao:(笑)是的,这也确实体现了我们技术的能力,能够满足学生各种各样的好奇心。你可以把它理解为一个“科学百科知识视频化助手”。学生时期总会有各种奇奇怪怪的想法,这些内容用视频的方式来解释,远比看一段干巴巴的文字更有趣,也更容易理解。

我们希望 VideoTutor 能成为每个人学习理科知识的 AI 老师,甚至未来它可能会超过多邻国。在 STEM 理科场景,过去一直没有出现类似多邻国的世界级的产品,因为理科需要太多图形渲染,而现在基础模型的技术已经 ready 了,所以我觉得理科场景会诞生下一个多邻国。

硅星人:目前产品的市场反馈怎么样?

Kai Zhao:我们产品上线不到5个月,完全没有做任何市场投放,靠用户在Twitter等社交媒体上的自然转发,现在已经有超过4万名注册用户,生成了超过10万条视频。

我们筛选了200名美国高中生作为种子用户,每天给我们提供反馈。其中一半以上的同学觉得,我们的视频效果已经非常准了,不亚于他们花钱买的网课视频。无论是图形渲染、讲解逻辑还是声音,都让他们感觉不到这是AI生成的。目前已经有超过1000家企业和机构来咨询API购买,很多美国高校想和我们合作,家长们也在我们Twitter下留言,希望能尽快开通付费功能。


硅星人:你们现在是一个C端产品,也会服务B端的客户吗?

Kai Zhao:目前确实聚焦在C端产品上,但已经看到了非常强烈的B端需求。比如印度最大的教培机构之一就是通过他们的老师发现了我们,推荐给了学校负责人,联系我们,希望能提供定制化的服务。

不过,由于我们团队刚刚成立几个月,规模还很小,目前的工程能力还不足以为B端客户进行大规模的针对性定制开发。因此,我们现在的策略是先全力打磨好C端产品。我们计划在下一阶段服务B端客户,等团队扩充、产品更成熟之后。

辍学创业、大厂“出逃”,六人团队撬动千万美元

硅星人:这次千万美元的种子轮融资,在硅谷学生创业里是破纪录的。过程顺利吗?投资人最看好你们哪一点?

Kai Zhao:过程非常顺利,我们一共拿到了十几家VC的offer,整个融资在20天内就完成了。基本都是VC主动找过来,聊完第一轮就直接给offer了。

我觉得有几个综合原因:

第一,团队背景。我个人从大一开始就在美国三次进行教育领域的创业,对这个行业有足够深的认知。我们的技术团队非常优秀,有来自斯坦福的,也有动画引擎核心库的作者,工程能力很强。这其实是硅谷投资人很喜欢的“小天才团队”。

第二,技术壁垒。我们不是简单地套用大模型API,而是在几何解析、动画渲染算法上做了很深的“Deep Tech”工作,并且训练了超过8000条SAT和7000多条AP的样本视频。

第三,市场和时机。我们切入的主动学习场景痛点明确,价值巨大。在这个方向——多模态AI教育里,VideoTutor是目前跑得最快、最出名的产品。产品上线后,纯靠自然增长就获得了很好的用户数据和口碑,这证明了产品的价值。


这几点结合起来,我们成了一个“共识性”的项目,投资人不愿意错过。

硅星人:我们注意到领投方是币安创始人赵长鹏(CZ)的YZi Labs。他为什么投你们?

Kai Zhao:CZ本人离开币安后就在做一个叫“Giggle Academy”的教育项目,教育是他非常关注的第二事业线。我们和他本人聊了,他非常认可我们的方向。整个过程非常快,他和他的团队在两三天内就做出了投资决定。


VideoTutor 在 YZi Labs EASY Residency Demo Day 登上纽交所路演

硅星人:Kai,你个人的经历也很有传奇色彩,从安徽小城走出来,大一开始就连续创业,现在拿到了硅谷学生最大一笔种子轮,为什么很早就开始连续创业了?

Kai Zhao:我自己就是教育改变命运的例子。我是阜阳的,家境很普通,父母是卖了房子支持我来美国留学的。如果不是从小到大接受了好的教育,我不可能有机会在大三这年,站在硅谷的舞台上,拿到顶尖VC的支持,去实现自己的梦想。我高中时就向往硅谷,向往史蒂夫·乔布斯,所以来美国读书的目标之一就是创办一家科技公司,教育也是我喜欢的领域。

其实,大一创业的动机之一就是想挣些钱,让父母不用再付学费,和当时还是学长的James一起,虽然失败了,但学会了如何判断PMF;大二做的第二个项目很成功,入选了YC。这也是第三次教育创业,VideoTutor是我过去所有认知和经验的迭代。为了全身心投入,我已经从大学辍学了,不过我爸妈还不知道(笑)。

硅星人:在硅谷学生创业氛围也很好。

Kai Zhao:是的,这里的环境会让你觉得,创业是一件非常正常,甚至是理所应当的事情。

无论是高校还是资本都极其支持。每个大学都有自己的创业加速器,还有专门投大学生的VC。这里有非常多大学生创业的成功案例,比如Facebook的创始人。我们学校也诞生了像WhatsApp创始人这样的优秀创业校友。这些先例会助推整个环境,让资本和大学都愿意去鼓励学生创新。

更重要的是,这里的年轻人普遍有一种非常宝贵的品质,就是“冒险精神”和承担风险的能力。比如我,还有一年就能拿到毕业证,但我现在辍学了。在很多传统观念里,这是无法接受的事情。

硅星人:你个人的三次创业,在拿钱上也很顺利吗?

Kai Zhao:其实大一的时候不顺利,当时我主动去参加各种创业活动和孵化器,但一直被拒绝。

我甚至见了一个国内非常有名的、排名第一的天使投资VC的管理合伙人。他当时的评价是,我“too young, too naive”;还有凌晨3点多跑到投资人出差的酒店里,当面讲了一个多小时,结果被回复说“我有点困了,想先休息”,然后我又屁颠儿屁颠儿地早上6点多回去。

真的被几十个人拒绝过,但我就觉得,无论遇到多少次拒绝,都不能放弃。

硅星人:那James呢,你之前在meta和Google Gemini工作,可以说是很多人梦寐以求的职业路径。为什么选择离开大厂,和Kai一起创业?

James Zhan:在大厂工作就像一个围城,外面的人想进去,里面的人想出来。尤其在硅谷,大厂员工遍地都是,你去饭店,天花板砸下来都能砸死两个,你并不特别。每天上班感觉大家都有点行尸走肉,你只是一个“螺丝钉”,一个单纯的“牛马”,没有太多主导权。

我一直想做一些属于自己的、与众不同的东西。我觉得大模型的应用层比基础层更有趣,你可以直接接触用户,马上看到你做的东西是好是坏,成就感更高。当Kai带着VideoTutor这个方向找到我,加上我们无论是方向还是融资都比较顺利,我觉得就没必要耗着了,可以全职出来为自己的梦想买单。

硅星人:现在你们5个月,就拿到了1100万美元,目前的进展符合预期吗?

Kai Zhao:我不太意外。因为之前创业三次,每次都能拿到融资,我自己知道VideoTutor的方向能很好地满足行业和用户的需求,融资不是问题的。

James Zhan:对我来说,其实是有点Surprise的。因为我们是做技术出身,对融资这些没有太大期望。但我很相信我们的技术,我们团队的技术背景很硬。所以我只能说有一点惊喜,但也没有完全超出我的预期。

硅星人:接下来,你们要做的是什么?打算拿这笔钱去做什么?

Kai Zhao:我们主要将资金用于扩充工程团队,迭代动画引擎技术,以及一部分用于市场营销和公司日常运营。我们团队目前规模还很小,加上现在AI创业人才是最稀缺的,所以我们也需要在国内大厂有过快速迭代经验的人才一起把产品做好。


我也在这里打个广告,欢迎更多的人才联系我们、加入我们。(更多招聘信息:https://videotutor.io/)


点个爱心,再走 吧

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。