当前位置: 首页 » 资讯 » 新科技 » 正文

当1314岁的杜甫遇上刚出生的Seedance2.0

IP属地 中国·北京 红星新闻 时间:2026-02-12 18:21:15

2026年初,Seedance2.0带给人类的震撼,恰如2025年初的DeepSeek,2024年初的Sora以及2023年初的ChatGPT。

Seedance2.0能仅靠几张图片和文字描述,自动生成堪比大片的AI视频。

《黑神话:悟空》制作人冯骥,直言这是地表最强视频生成模型,没有之一。他说,Seedance2.0的出现,标志着“AIGC的童年时代,结束了”。


许多读者都知道,红星新文化从2023年开始,每年会做一个让AI以杜甫的身份与我们交流的测试,见证AI新的发展。今天刚好是杜甫1314岁诞辰,在这个AI几乎以日计飞速进化的时代,人类和AI这对CP是否可以牵手“1314”呢?怀着这样的心情,我们和刚刚“出生”的Seedance2.0一起,进行了第四次的“杜甫测试”。


杜甫穿越至2026年的成都,并接受采访 由Seedance2.0生成

全程AI,生成AI杜甫视频

在今年的“AI杜甫试验”中,我们计划从指示词、图片再到视频,完整走一遍“全流程AI生成”的路径。

之所以从“指示词”切入,是因为在AI创作里,指示词往往决定了结果的上限。很多不常使用AI的人,容易把用AI理解成一句简单的“你帮我生成一张图”“你帮我生成一段视频”,然后期待AI立刻输出准确、可用的成片。但现实是,同样使用一款AI工具,不同的人往往会得到完全不同的效果,差异的核心,就在于指示词是否足够明确和精准。

图片和视频的AI指示词生成,我们选取了Gemini3.0。

这是一款由Google DeepMind开发的多模态大型语言模型,被谷歌官方称为“最智能的模型”。业内认为,Gemini3.0具备优秀的逻辑、推理和计算能力。在本次“杜甫试验”中,我们运用到的文本写作能力只是它强大功能的冰山一角。

首先,我对Gemini3.0输入了需求:“我现在要生成一小段杜甫在2026年成都生活的视频,现在需要给AI下指令,生成5张图片,以便于后面进一步生成视频。请你先给我这5张图片的指令。”

Gemini3.0很快给出了十分清晰的图片指令。不仅每一张图片的指令都非常详细、精准和清晰,同时也提前考虑到了后续“生成视频”的衔接需求,整体呈现出较强的连续性与场景感。



Gemini3.0生成的部分指令

随后,我将Gemini3.0生成的AI图片指令,给到了本次主要试验对象——Seedance2.0,并要求每张图片需要调整到相同比例。

很快,Seedance2.0生成以下5张图片:


特别是最后一张,居然还挺有设计感的

图片生成后,我再次要求Gemini3.0生成视频指令:“我需要一段AI生成视频时候的指令,将这5张图片生成一小段视频。请给我一段指令描述。”

Gemini3.0迅速理解到从图片到视频的逻辑,生成了十分细致的视频脚本。

我们拿了第一张和第二张杜甫图片来试验,输入了Gemini3.0生成的视频脚本:

“镜头从杜甫站在室外红墙边开始。杜甫收回仰望天空的目光,转过身,缓步穿过翠绿的竹林小径,走入古朴的茅屋。镜头采用平滑的追踪摄影(Tracking Shot),跟随他的背影从明亮的室外日光进入光影柔和的室内。他走到书桌前坐下,画面自然过渡到他伸手触碰全息光幕的瞬间。整个过程动作优雅缓慢,充满电影感,光影切换自然。”

但当我们把这段130个字的指令和两张图片,发送给Seedance2.0后,超过了24小时,依然卡在99%的进度条上。即使经过会员加速,还是没有生成成功。在之后的使用中,也多次出现了类似情况,只要指令稍显复杂,便会出现数小时甚至数十小时都显示仍在生成的情况。


一直卡在“99%造梦中”

我们只能人工精简了视频指令。针对第一张和第二张图片,我们将指令精简为:

镜头从图一的红墙开始,人物收回仰望天空的目光,转过身,缓步穿过竹林小径,走入茅屋。镜头跟随他的背影从明亮的室外日光,进入光影柔和的室内。图二人物走到书桌前坐下,画面自然过渡到他伸手触碰全息光幕的瞬间。

20分钟后,Seedance2.0生成一段5秒的视频:


因在本文中需要转成GIF,视频精度有所下降

针对第三、四、五张图片,我们将指令精简为:

图一机器人提起茶壶,清澈的水流注入杯中,杯口升起袅袅的热气。人物看着茶杯,身体微微前倾,做吸入茶香的动作。图二人物向前行走,长袍下摆随风摆动。身旁的行人正常走动,无人机掠过。图三人物缓慢眨了一次眼,瞳孔中的城市霓虹倒影闪烁,胡须在风中细微颤动。

20分钟后,Seedance2.0生成一段5秒的视频:

因在本文中需要转成GIF,视频精度有所下降

短短三年,“AI杜甫”成长惊人

第一次让人类大规模地认识到“AI时代”的来临,是在2023年2月。

那年,由OpenAI发布的ChatGPT横空出世,我们率先以“采访”AI的形式,邀请“AI作为杜甫写诗”(《我们请ChatGPT模仿杜甫写了一首诗》),也与AI探讨了版权、伦理困境等问题。

它快速高效的内容创作能力让初尝AI的网友惊叹,“AI是否要取代人工”等相关话题,也在网络上被越来越多的人讨论和重视。


2023年的ChatGPT

但彼时AI创作的内容还相对幼稚,甚至会出现文字上的逻辑混乱,比如“茶馆里的烤鸭 香味四溢”。

评论区内,一些网友表示,看到AI写的诗“松了一口气”“看来文字工作者短期内还不太会失业”。

但2024年的2月,Sora的出现,让人明显感觉AI又发展到了新阶段。

于是我们创建一位AI Bot(AI机器人),并为它设定“从唐朝穿越至2024年的杜甫”(《AI又进化了:杜甫穿越到2024年,写诗还发来照片》)。


2024年的2月,Coze(海外版)生成的杜甫

在对AI杜甫的“采访”中,我们还让它生成了照片。评论区里,网友们的观感开始发生变化:“我觉得很恐怖,AI很像活生生的人了,回答的逻辑性很强。”

等到2025年2月,在AI技术上,美国一枝独秀的局面被打破。其中,火遍全球的Deepseek,成为许多中国用户最常使用的AI软件。

这年,我们选择了市面上最火的几款国产AI工具——DeepSeek、豆包和kimi,让他们分别扮演AI杜甫,并生成杜甫穿越后的“照片”,从对话逻辑性、文学性等方面进行横向比较(《今年,我们和deepseek杜甫、豆包杜甫、kimi杜甫都聊了聊》)。评论区内,网友们纷纷为DeepSeek的文笔感叹。


2025年2月,豆包绘制的穿越到现代成都的杜甫

今年,Seedance2.0的出现,让我们意识到,就像是当年AI可以大幅度降低文字创作门槛一样,人人都能创作视频的时代真的来了。

其实这几年,Sora、Veo、通义万相等科技公司,都在相继试验和推出AI视频工具,让短视频、短剧等赛道的产出,以指数倍的体量增长。以AI漫剧为例,一家漫剧公司创始人曾在采访中告诉红星新闻记者,利用AI技术,他们的月产量可达上百部。

在Seedance2.0出现之前,AI在视频上的运用还没有达到让人如此惊讶的地步。它虽然的确降低了视频创作门槛,但还是需要使用者具备基础的视频剪辑知识,才能精准地发布指令,形成工业化的生产能力。同时,AI生成的视频,常常会因为算力不足,出现不稳定、细节不符合逻辑的情况,比如两人打架,打着打着就长出好几只手出来。

Seedance2.0不一样,它几乎不需要使用者具备任何专业技能,可以通过一段文字、一张图片就能产出电影级成片,专业运镜、音画同步、多镜头叙事、长镜头与剧情逻辑高度统一。


结束采访,AI杜甫拱手作揖Seedance2.0生成

但Seedance2.0并不是“神话”。就本次体验来说,“生成时长”过长,就是一个很影响使用感的问题。

除此之外,当我们想要把这一段“杜甫拱手作揖”加上拜年字幕时,不知为何,Seedance2.0无法自动生成“杜甫”的“甫”字。



最后,按照每年惯例,我们依然问了一下AI杜甫一个老问题:“AI创作,未来会发展成什么样?会有取代人类创作者的那一天吗?”

“Gemini3.0版AI杜甫”说:

未来,智机为笔墨,人为诗魂。它能拟老夫之韵,却难传老夫之情。智机愈盛,人心之真愈显珍贵。工具有异,灵性大同,共生而不替,诸君莫忧。

即梦AI(注:Seedance2.0为即梦推出的模型)回答:

后生啊,此等AI创作,譬如神工鬼斧,能摹古画、和新声,确是奇哉!然,“感时花溅泪,恨别鸟惊心”,此乃人心与天地共鸣,非算法所能尽得。它或为翰墨之助,却难夺诗心之魂。创作之真谛,在于“情动于中而形于言”,此乃人之所以为人,AI终不能替也。

那么,你觉得,这是AI杜甫的真心话,还是面对人类的客套话呢?

红星新闻记者 毛渝川 任宏伟 编辑 苏静

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。