10月27日,美团官方宣布,美团LongCat团队正式发布LongCat-Video视频生成模型。该模型基于Diffusion Transformer架构,可支持文生视频、图生视频及视频续写三类核心任务,并宣称在开源模型中达到先进水平。

据介绍,LongCat-Video可生成720p分辨率、30帧率的高清视频,其突出特点在于能够原生生成长达5分钟的连贯视频内容。模型通过视频续写预训练、块稀疏注意力等机制,旨在解决长视频生成中常见的画面断裂、质量下降等问题,保持时序一致性与运动合理性。
在效率方面,该模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,据官方表示推理速度提升超过10倍。模型参数量为136亿,在VBench等公开测试中表现出较强的文本对齐与运动连贯性。
作为构建世界模型的技术尝试,LongCat-Video未来或可应用于自动驾驶模拟、具身智能等需要长时序建模的场景。该模型的发布标志着美团在视频生成与物理世界模拟领域迈出重要一步。





京公网安备 11011402013531号