当前位置：首页 » 资讯 » 新科技 » 正文

从 SD 到 Wan2.5-Preview，AI 视频 2025 质变启示录

IP属地中国·北京 极客公园 时间：2025-10-30 20:15:19

AI 视频创作，从极客专属到人人可用，一共需要几步？

作者｜Cynthia
编辑｜郑玄
全民玩梗的狂欢，再一次在 AI 视频领域上演。
最大的时代红利，属于今年四季度发布的中美两大明星产品，OpenAI 的 Sora 2 与阿里的 Wan2.5-Preview。
其中，Sora 2 的登场堪称一场教科书级的营销战役。熟悉的邀请码机制再次奏效，用户为了获得一个入场券除了需要购买 GPT 的会员之外，甚至还在二手平台再花几十美金购买邀请码。更绝的是，它把自己变成了一个 AI 版抖音，用户只需上传一张照片，就能生成自己和奥特曼对话的魔性视频。这种把用户变成主角的设计，让 Sora App 首周下载量直冲 62.7 万次，甚至超过了当年的 ChatGPT。
大洋彼岸，Wan2.5-Preview 则以另一种方式在各大社交媒体刷屏。一夜之间，抖音、小红书上的 AI 小猫开始集体说着「我爱妈妈」然后炒着三菜一汤等主人下班，画面中的光线、格局、小猫表情细腻到令人发指之外，甚至炒菜的锅气与油烟这样的细节也完全到位。
可以说，正是这两大模型的出现，让 AI 视频一夜之间从技术圈极客专属推向全民热潮。
那么，这一次 AI 视频 2025 年破圈的关键是什么？Wan2.5-Preview 在内的一众最新模型做对了什么？与此同时，这次的 AI 视频浪潮又会火多久？
一定程度上，这一波 AI 视频模型热潮，正是大模型落地从技术突破到改变世界交出的标准答案范本。
01
AI 视频为什么又火了
Wan2.5-Preview 与 Sora 2 的爆发绝非偶然，而是技术积累到一定程度的必然结果。
而要理解这次 AI 视频的爆发，就得先看懂历史上的三起两落。
行业的第一次爆发发生在 2022-2023 年期间，那时候借助 U - Net、DDPM 等经典生成架构，DALL - E 2（OpenAI）、Midjourney、Stable Diffusion（Stability AI）、ControlNet、Gen - 2（Runway）、万相 1.0 等模型通过以文生图让人们第一次看到了 AI 创作的潜力。
但很快，这些模型就因为六指怪、表情呆板等问题被喷上热搜。模型随之在 2024 年前后，进入 Scaling 阶段，通过采用 DiT、Flow Matching 等新技术，结合视觉语言模型（VLM）的图像描述能力，生成更逼真的图片，图生视频成为可能，这一阶段，Sora（OpenAI）、可灵 1.0/1.6、海螺 01、Flux 1.1、万相 2.0/2.1 陆续走上台前。但这一阶段，AI 生成的视频，依然存在时间短、音画不同步、无法执行复杂动作的弊病。
直到 2025 年，随着 LLM（大语言模型）与 Diffusion（扩散模型）的深度融合，AI 视频迎来了质的飞跃。通过引入视觉 CoT（思维链），模型从单纯的视觉渲染转向任务导向的智能决策，不仅能支持多模态交互，还能解决复杂的视觉 + 语言任务。Gemini 2.0 Flash（谷歌）、GPT - 4o 生图（OpenAI）、可灵 2.0、Veo 3、Seedance 1.0、豆包、万相 2.2、Nano Banana（谷歌）相继爆火。
四年间，模型千变万化，但每次 AI 视觉产品的爆火的背后，都离不开两大方面的进步：
门槛降低以及效果提升。
早期以 SD 为代表的工具，是典型的极客专属——CFG scale 数值要反复调试，数十个节点的连接逻辑能劝退 90% 的用户；生成内容更是阴间赛博风，除了 P 站上粗制滥造的成人内容，几乎没人愿意盯着画面里突然冒出两张脸、音画完全不同步的视频超过一分钟。
反观当下的热门模型，无论是计划做 AI 时代抖音的 Sora 2，还是社交媒体刷屏的 Wan2.5-Preview，都踩中了同一个关键点：高质量的同时，把门槛降到人人可用。
首先是针对过去 AI 模型的赛博审丑，Wan2.5-Preview 通过人类反馈的强化学习（RLHF）把用户对画面质感、动态效果、指令匹配度的反馈用于优化模型，彻底摆脱丑且诡异的标签。
而要达成以上效果，用户不需要懂任何技术，只要能把自己脑海中的画面，用一段简单的提示词说出来，就能生成栩栩如生的视频。
比如，这是一个使用 Wan2.5-Preview 生成的高赞视频。
提示词：黄昏，逆光，侧光，柔光，高对比度，中景，中心构图，干净的单人镜头，暖色调。年轻白人男子站在树林中，阳光透过树叶在他发丝上形成金色光晕。他穿着浅色衬衫，微风吹动他的头发和衣领，光线随着他的动作在脸上流动。背景虚化，远处是斑驳的光影和柔和的树影，镜头聚焦于他微微抬起的目光，眼神清澈且带有情绪。
视频链接：
https://tongyi.aliyun.com/wan/work-detail/4ce663a31fbc4c5f859a8d8d6fbf23eb?resourceId=4ce663a31fbc4c5f859a8d8d6fbf23eb
可以看到，画面中不仅人物神态动作自然，空气中的尘埃，树林中的光线也都十分还原，去掉右下角的 logo，几乎无法分辨是否实拍。
在此基础上我们再加点难度，画面更复杂一点，主体变成有精细毛发细节的布偶猫，然后加入动作、神态以及抑扬顿挫的语调：
提示词：电影感仰拍镜头，让主体显得很有权势。在一间奢华的客厅里，一只雍容华贵的布偶猫坐在一张王座般的猫爬架上。它用居高临下、充满审判意味的蓝色眼睛俯视着镜头。它缓缓抬起一只毛茸茸的爪子，以一种极度鄙视的表情指向观众，质问说：「嗯？那我再问你，我生成视频的音频不自然吗？回答我！Look in my eyes！Tell me, why？Why baby why？」。戏剧性的华丽光影，浅景深，超精细的毛发细节，照片级真实感。

可以看到多个升级版要求多管齐下，但整体画面的质量依然没有下降，甚至就连环境中的光线角度，光源反射细节都完美还原。
当然，这种低门槛与高质量，只是 Wan2.5-Preview 火起来的基础，在用户体验细节上，Wan2.5-Preview 还做了更多的探索与尝试。
02
如何定义体验 ready 的视频模型
AI 模型的技术参数再漂亮，最终要落地到用户体验上。
过去很多 AI 工具的通病是碎片化——文生图一个模型、文生视频一个工具、图生视频又要换平台，用户为了实现一个创意，得在多个工具间反复切换，生成、调整、合成的繁琐步骤，早已磨掉了创作热情。
更不用说，过去做一条电商营销视频，用户要先找模型生成画面，再用另一个工具做音频，最后用第三方软件合成，耗时不说，还容易出现音画错位。最后为了节约拍摄成本，不得不再招聘一个成本更高的算法工程师搭建业务的 workflow。
seaart.ai 的案例很有代表性。这家 2023 年 4 月成立的公司，专注图像和视频生成，全球活跃用户超 2500 万，稳居 AIGC web 产品 TOP 50。他们采访过一位澳大利亚理发师，对方从小的梦想是当画家，却为生活拿起了剪刀。现在他每天最开心的时刻，就是下班用 seaart.ai（海艺）创作——过去用画笔无法表达的想法，现在用文字就能生成画面，「海艺成了安放灵魂和梦想的地方」。
之所以选择海艺，正是因为海艺集成像 Wan2.5-Preview 这样的模型，解决了过去 AI 视觉生成用户体验割裂的痛点。
在 Wan2.5-Preview，生成 10 秒视频时，系统会自动匹配人声、环境音效和背景音乐，甚至能让小猫的口型和「我爱妈妈」的台词对应上，全程无需人工干预。
在这背后，则是 Wan2.5-Preview 的统一框架设计：Wan2.5-Preview 没有像 SD 那样堆砌独立模型，而是把文本、图像、视频、音频的理解与生成装进了同一个框架里。底层用文本分词器、图像 / 视频编码器、音频编码器分别拆解不同类型的信息；核心用多模态 Transformer 做大脑，实现跨模态信息的深度融合；输出层直接支持文本、图像、视频、音频的生成，借助多模态对齐能力，用户不再需要在多个工具间切换。
最重要的是，用过 AI 的人都知道，一次性生成满意的内容几乎不可能。但是对图像和视频二次编辑又往往非常困难。Wan2.5-Preview 在这方面做了针对性优化：
视频上，Wan2.5-Preview 增强了复杂指令精准执行能力：能理解运镜语言（如推、拉、摇、移）及连续变化指令，无需多次调整；细节优化：强化图生视频的元素 ID 一致性（即生成过程中保持人物、物体等核心元素不丢失），同时支持通用音频驱动视频生成。
在生图上，AI 的生图质量今年行业基本解决，但是对于图片中加文字尤其是中文这样的需求，就很容易变成鬼画符，更不用提生成图表。Wan2.5-Preview 则不仅支持稳定生成中文、英文等文字，甚至能直接生成图表；还能通过文字指令一键换装、改风格，编辑时核心元素不会变形。
正是这些体验细节的打磨，让海艺平台上的用户用 Wan2.5-Preview 生成的视频数突破 500 万条，创意的表达就像说话一样自然。
03
技术到商业，如何加速
技术 ready、体验 ready 的 AI 产品不少，但很多都停留在叫好不叫座的阶段。
Wan2.5-Preview 的聪明之处在于，它在做好产品的同时，也打造了一整套完善的商业化体系。
这套完整商业化体系的最底层，是阿里云的算力支持，与模型软硬一体形成生态护城河。中间层则是阿里云百炼这样的模型开发服务平台，让用户一键部署大模型不再是天方夜谭；最顶层的模型侧，也给足了用户选择。
以Wan2.5-Preview 给为例，不同用户的需求天差地别：有人只是想尝鲜做个 5 秒短镜头，有人要做 10 秒的抖音爆款；有人追求 1080P 电影级画质，有人觉得 720P 够用就行。
Wan2.5-Preview 选择，5 秒、10 秒，画质上，提供 480P、720P、1080P 三种选择，用户可以根据预算和用途自由切换。
在此基础上，Wan2.5-Preview 没有掩饰自己对商业化以及算清成本账的野心。在最近的飞天发布时刻上 Wan2.5-Preview 正式宣布商业化，并给出了明确且足够优惠的收费标准：
国内：1080P 1 元 / 秒，720P 0.6 元 / 秒，480P 0.3 元 / 秒；
海外：1080P 0.15 美元 / 秒，720P 0.1 美元 / 秒，480P 0.05 美元 / 秒。
形成对比，Sora 2 生成视频需要 0.1-0.5 美元 / 秒，国内可灵 2.0 收费标准为 0.5 元 / 秒，Wan2.5-Preview 属于同等内容质量产品中，定价也极具吸引力的一档。
而这种定价方式精准击中了不同用户的痛点：
对短视频团队、广告公司等专业用户，清晰的定价能让他们准确核算成本，比 SD 免费但需自己承担服务器成本更划算；
对普通尝鲜用户，按秒收费意味着花几块钱就能试玩，不会被高昂的套餐费吓跑。
建立在丰富的选择与定价标准之上，通义万相的商业生态也已经初步跑通，WaveSpeedAI 就是最好的案例。
这是一家专注多模态 AI 生成的平台型公司，也是全球第一个上线 Wan2.5 系列模型的平台。
围绕怎么用好 Wan2.5-Preview，WaveSpeedAI 的做法很聪明：它根据用户的价格敏感度，按照分辨率、生成时长、加速程度梯度收费，此外，根据模型的不同，提供了分层解决方案：
最低价区间：用 Wan2.2 的快速推理版本，满足预算有限的用户；
中间层：用优化后的 Wan2.2 开源模型，平衡成本和质量；
高端层：用 Wan2.5 的快速版和普通版，服务追求高质量的用户；
在此基础上，WaveSpeedAI 还拓展了数字人业务，在对口型的基础上，实现了更丰富的肢体动作和表情控制。目前，WaveSpeedAI 借助 Wan2.5 生成的视频数已突破 1000 万条。
以上只是个例，据云栖大会官宣数据，通义万相家族已整合 10 多种视觉创作能力，累计生成 3.9 亿张图片和 7000 万个视频，成为国内主流的 AI 视觉创作工具。
04
尾声
AI 视频的故事远没到结尾。
技术侧，现在的模型依然有短板：内容生成时长不够长、细节不够细腻、长视频的一致性问题还没完全解决……
但不可否认的是，无论是 Sora 2 的 AI Tik Tok 野心，还是 Wan2.5-Preview 的行业侧深耕，都让 AI 视觉生成跨过了技术到产品的鸿沟。
在这个过程中，技术先进固然重要，但能把技术变成用户愿意用、愿意付费的产品，让行业真正尝到 SOP 缩短，效率增加，用户体验提升，才是真正的胜负手。
*头图通义万相Wan
本文为极客公园原创文章，转载请联系极客君微信 geekparkGO
AI 正在重塑人机交互的每一个维度，大模型的发展带来了新的交互方式，也带来了新的硬件机会。手机还会是用户最重要的个人计算设备吗？手机之外的硬件有怎样的机会？AI 时代会诞生新的安卓系统吗？
10 月 30 日（周四）20:00，极客公园视频号直播间，极客公园创始人 & 总裁张鹏将与光帆科技创始人董红光展开一场关于「AI 时代的交互与硬件」的深入对话。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

浏览器里玩罪恶都市？这群俄罗斯人复活了整个童年

拼多多摊牌了，要用3年再造一个自己。

马斯克将把特斯拉使命从可持续富足改成“惊人富足”：后者更愉悦

刚刚，小米17 Ultra正式炸场！一文看齐

柯尼赛格跑车创始人：柴油混动是电动汽车“完美的替代方案”

只比普通版贵500！徕卡红标附体小米17 Ultra，首发光学变焦长焦

全站最新

浏览器里玩罪恶都市？这群俄罗斯人复活了整个童年

拼多多摊牌了，要用3年再造一个自己。

马斯克将把特斯拉使命从可持续富足改成“惊人富足”：后者更愉悦

刚刚，小米17 Ultra正式炸场！一文看齐

热门推荐

浏览器里玩罪恶都市？这群俄罗斯人复活了整个童年

拼多多摊牌了，要用3年再造一个自己。

年轻人的第一台徕卡相机小米17 Ultra徕卡版发布：7999元起

小米推出iPhone妙享桌面：iPhone上可直接镜像操控小米手机

马斯克将把特斯拉使命从可持续富足改成“惊人富足”：后者更愉悦

刚刚，小米17 Ultra正式炸场！一文看齐

柯尼赛格跑车创始人：柴油混动是电动汽车“完美的替代方案”

只比普通版贵500！徕卡红标附体小米17 Ultra，首发光学变焦长焦

小米17 Ultra徕卡版7999元起，雷军望向余承东

美国试点无人机送货，安全隐患引专家担忧

英伟达豪掷1400亿元“收编”芯片独角兽

英伟达重金收编潜在挑战者

AI构图+小艺助手升级，华为nova 15 Pro上手：拍照小白也能出大片

揪出“AI人脸”更简单，新研究称只需约5分钟针对训练即可

星尘智能开启“机器人MART”千台级批量交付，自主售卖玩偶盲盒