美团LongCat-Video视频生成模型发布:可输出5分钟长视频
在音视频融合理解方面,仅支持视觉输入的模型如Qwen2.5-VL-7B-Instruct和Keye-VL-8B在面对依赖音频内容的视频时常常出现理解偏差。 在视频聚合应用中,模型通过生成详细摘要帮助内容分类…
01/20 14:04
01/20 13:53