当前位置: 首页 » 资讯 » 新金融 » 正文

对话商汤科技首席科学家林达华:生成不等于完成,AI创作的关键是理解人的意图

IP属地 中国·北京 编辑:朱天宇 时代周报 时间:2025-07-28 22:14:35

本文时代周报 作者:雨辰

在AIGC技术快速迭代的当下,图生视频正在从实验室走进创作室、工作坊和工业一线。

2025世界人工智能大会(WAIC 2025)期间,商汤科技联合创始人、执行董事、首席科学家林达华博士在接受时代周报等媒体采访时,深入剖析了多模态大模型的演进趋势、技术挑战与商汤的战略布局。他强调:“多模态能力是通向通用人工智能(AGI)的必经之路。”

今年5月,CreateAI发布《多模态生成技术在动画制作领域的应用与发展白皮书》,该报告首次以中国动漫电影《哪吒2》为案例,结合权威数据,揭示了AI在激发创意与优化流程方面如何实现“降本增效”。

林达华认为,生成式AI的未来,不应仅仅追求“从文字直接生成图像或视频”的技术炫技,而应聚焦于创作者意图与结果之间的精准对接。“AIGC的终极形态,是一个真正服务创作过程的交互工具。”


商汤科技联合创始人、执行董事、首席科学家林达华博士

时代周报:从技术角度来看,在视频生成过程中,如何实现对空间结构和物理逻辑的有效把控?

林达华:商汤很早就布局了数字人、三维建模等方向,因此在三维空间建构方面积累深厚。在Sora引发关注时,我们也研究了它的视频质量,的确在视觉效果上令人惊艳,但它在物理规律的掌握上存在明显不足——它采用的是基于时间的一帧帧生成逻辑,本质上并不具备三维结构的建模与控制能力。相比之下,商汤内部一直在探索如何将三维结构能力应用于视频合成,让生成视频在空间结构和物理逻辑上都更加真实可控。

这一优势也体现在我们参与的奥运场景应用中。例如在去年奥运会乒乓球等项目中,我们把三维的结构的这种信号,用于控制视频的生成,使得它生成的结果符合物理的结构、物理的规律。成功实现对球拍与球体轨迹的精准还原,为赛事回放与辅助判罚提供了强有力的技术支持。

时代周报:在实际运用中,视频生成结果“符合物理逻辑”有多重要?

林达华:这是我们高度重视的关键能力。生成内容不仅要“看起来真实”,更要“逻辑上成立”。例如,商汤的“开悟”世界模型,在某种意义上,也可被视为一种视频生成模型,但它对三维结构生成的准确性和物理性的要求极为严格。若生成的结果不符合物理规律,将其用于驾驶训练,将导致灾难性的后果。所以,相较于一些AI公司追求生成画面越“炫”越好,商汤更强调结果的正确性:我们生成的画面必须符合物理规律、空间逻辑,并具备可解释性。

时代周报:图生视频较文生视频有哪些提升?图生视频具体有哪些典型应用场景?在哪些环节真正能发挥价值?

林达华:相较于文生视频,图生视频显然具备更坚实的依托。以文字为例,若要生成一只在空中飞翔的鸟,单凭文字描述,系统难以构思出丰富的细节。然而,若有一张图片作为基础,生成的结果便会日新月异。例如,要求系统生成“我妈妈微笑的照片”,若系统未曾见过你母亲,又怎能凭空创造?显然,必须有一张实际图像作为参考。因此,我认为真正的个性化生成,不应仅依赖文字描述,而需以真实影像为支撑,方能实现这一可能性。

从图生视频的角度来看,最直接的莫过于C端应用场景。假设你家中存有大量照片,希望让它们“动”起来,这无疑是一个极具吸引力的创意。早期,我的团队开发了AnimateDiff,影响力较大。如今,许多后续的图生视频研究都与AnimateDiff有着千丝万缕的联系。我们注意到,这项于2023年开源的技术,被广泛用于创作各类充满想象力的视频,用户仅需几张照片便能展开创作。

时代周报:图生视频的价值在哪里?您怎么看AI和人类创作者的关系?

林达华:我们一直认为,文生视频也好,图生视频也好,都不是生成式AI的终极形态。真正的理想状态,是将创作者的意图与生成过程深度融合,把AI当作一个真正服务创作流程的“工具”。

在我理解,包括我们刚刚发布的视频平台上的Seko AI,它是一个交互式创作工具,我们将视频的制作视为一种创作,而不是仅仅输入一句话后就不管不顾,等待它生成一个结果。这个结果很可能并不符合你的预期,也不一定能直接使用。

真正有价值的是,它能大幅减少你的工作量,同时你仍能对最终的生成内容进行把控。当发现生成内容不合适时,你可以指导它进行修改,掌控生成的脉络,这就是交互式生成的核心所在。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。