当前位置：首页 » 资讯 » 新零售 » 正文

苹果携手复旦大学推 StreamBridge 端侧视频大语言模型框架

IP属地中国·北京 编辑：赵云飞砍柴网 时间：2025-05-16 18:47:16

5 月 13 日消息，科技媒体 marktechpost 今天（5 月 13 日）发布博文，报道称苹果公司联合复旦大学，推出 StreamBridge 端侧视频大语言模型（Video-LLMs）框架，助力 AI 理解直播流视频。
直播流视频理解的挑战与需求
传统视频大语言模型擅长处理静态视频，但无法适应机器人技术和自动驾驶等需要实时感知的场景，在这些场景下，要求模型能快速理解直播视频流内容，并做出反应。
现有的模型面临两大难题：一是多轮实时理解，即在处理最新视频片段时需保留历史视觉和对话上下文；二是主动响应，要求模型像人类一样主动监控视频流，并在无明确指令的情况下及时输出反馈。
StreamBridge 框架与创新技术
为解决上述问题，苹果公司与复旦大学的研究者开发了 StreamBridge 框架。该框架通过内存缓冲区和轮次衰减压缩策略，支持长上下文交互。
该框架还引入了一个轻量化的独立激活模型，无缝集成现有视频大语言模型，实现主动响应功能。研究团队还推出了 Stream-IT 数据集，包含约 60 万个样本，融合了视频与文本序列，支持多样化的指令格式，旨在提升流式视频理解能力。
StreamBridge 在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上进行了测试。结果显示，Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分别提升至 71.30 和 77.04，超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型。
Oryx-1.5 也取得了显著进步，而 LLaVA-OV 性能略有下降。Stream-IT 数据集的微调进一步提升了所有模型的表现，证明了 StreamBridge 在流式视频理解领域的强大潜力。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

全站最新

“伙伴+华为”：共筑AI时代数智新基建，跃升AI新价值

华为云AI战略升级：以行业智能体为中心，打造企业级AI创新“黑土地”

调查：互联网“借贷入口”，无孔不入，无处不在

Meta元宇宙未死，但扎克伯格的热情已转向AI

热门推荐

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

南城香创始人汪国玉：平台消费券激发消费热情，门店收入利润均提升

通信企业：“推销热售后冷”消磨用户信任

盛银消金 25% 股权再被冻结！新董事长年初刚上任

伊利出席第八届中澳工商界首席执行官圆桌会助力中澳经贸合作提速升级

商查平台企业信息查询新范式：水滴信用企业查询MCP

从“闪购”到“观望”：Prime Day被拉长的背后，是消费者与平台的“双重博弈”

澎湃漫评｜通信企业为何“推销热售后冷”

“电商西进”助力豫企破浪：一枚鱼油的3000公里“暖心”之旅

京东外卖取消超时免单，改为“准时宝”服务