当前位置：首页 » 资讯 » 新科技 » 正文

智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题

IP属地中国·北京 编辑：赵静 IT之家 时间：2024-07-12 14:36:22

7 月 12 日消息，智谱 AI 宣布，训练了一种新的视频理解模型 CogVLM2-Video，并将其开源。
据介绍，当前大多数的视频理解模型使用帧平均和视频标记压缩方法，导致时间信息的丢失，无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域，使得模型失去了更广泛的问答能力。
▲ 官方效果演示
智谱 AI提出了一种基于视觉模型的自动时间定位数据构建方法，生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据，引入了多帧视频图像和时间戳作为编码器输入，训练出 CogVLM2-Video 模型。
智谱 AI 表示，CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能，还在视频字幕生成和时间定位方面表现出色。
附相关链接：
代码：https://github.com/THUDM/CogVLM2 项目网站：https://cogvlm2-video.github.io 在线试用：http://36.103.203.44:7868/

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

向“一年60发”冲刺，海南商业航天发射场二期工程主体结构完工

Anthropic推出AI安全工具，可帮助用户发现并修复代码漏洞

Xbox换帅：斯宾塞时代落幕，外行新掌门人引发信任危机

三星SDI锂金属电池研究新突破，寿命和安全性大提升

20 年生命 vs 2 小时训练，Sam Altman 开始算「人肉成本」

地心下的“智能守岁人”：巡检机器人护航城市新年

全站最新

向“一年60发”冲刺，海南商业航天发射场二期工程主体结构完工

Anthropic推出AI安全工具，可帮助用户发现并修复代码漏洞

Xbox换帅：斯宾塞时代落幕，外行新掌门人引发信任危机

三星SDI锂金属电池研究新突破，寿命和安全性大提升

热门推荐

向“一年60发”冲刺，海南商业航天发射场二期工程主体结构完工

外媒：到2030年OpenAI计算支出预计将达到约6000亿美元

Anthropic推出AI安全工具，可帮助用户发现并修复代码漏洞

Xbox换帅：斯宾塞时代落幕，外行新掌门人引发信任危机

三星SDI锂金属电池研究新突破，寿命和安全性大提升

20 年生命 vs 2 小时训练，Sam Altman 开始算「人肉成本」

地心下的“智能守岁人”：巡检机器人护航城市新年

三个和尚没水喝！OpenAI星际之门搁浅，一年过去压根没动工

美拟将载人绕月飞行任务火箭和飞船撤回装配大楼

突发，暴跌！超13万人爆仓

李公明｜一周画记：被AI聘用的人类……；马年人日的祝福

币圈「戏精」孙宇晨又一炸裂发言：尽快删除所有90前的联系人！

32倍压缩率下性能反超25个点！破解长文本压缩「翻车」难题

春节AI大战收官，蚂蚁凭“双一亿”拿下专业战场

智谱GLM-5技术全公开！完全适配华为等国产芯片，美国网友酸了