当前位置：首页 » 资讯 » 新科技 » 正文

京东全球首推全栈开源实时视频交互模型JoyAI-VL-Interaction 赋能开发者打造实景AI助手

IP属地中国·北京 编辑：大力财经头部财经 时间：2026-06-22 21:55:51

京东近日宣布，正式开源全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction，并获得vLLM-Omni的day-0原生支持。这一突破性技术将推动大模型从“被动应答”转向“主动交互”，为开发者构建具备实时观察与决策能力的AI助手提供全新框架。
与传统模型依赖用户提问才能启动分析不同，JoyAI-VL-Interaction可自主持续监控视频流，通过实时判断画面内容决定是否需要响应。例如在安防场景中，系统能主动识别异常行为并立即预警，而非等待用户询问后才反馈结果。这种“主动判断”机制显著提升了AI在复杂环境中的实用性。
该模型在实时性方面实现关键突破。针对传统视频处理需完整上传后分析的延迟问题，JoyAI-VL-Interaction支持对正在发生的视频流进行即时解析。在直播解说、实时翻译等场景中，系统可在画面变化瞬间生成响应，确保信息传递的时效性。测试数据显示，其在监控预警、实时计数等58个流式场景中，响应延迟控制在毫秒级。
为应对复杂任务需求，模型创新性地引入“智能体委托”机制。当遇到代码生成、工具调用等高负载任务时，系统会自动将任务分配至后台大模型处理，同时保持前台模型持续观察现场。任务完成后，前后台无缝衔接对话流程，既保证处理效率又维持交互连贯性。这种设计特别适用于需要多线程处理的工业指导、医疗辅助等场景。
技术架构方面，该系统支持多模态输入输出，包括摄像头、直播流、监控视频等视频源，以及语音交互、可视化界面等交互方式。开发者可灵活替换ASR语音识别、TTS语音合成、后台模型等组件，甚至接入自定义业务系统。其长期记忆功能允许AI助手在持续交互中积累上下文信息，提升服务个性化水平。
在真实场景评测中，JoyAI-VL-Interaction展现出显著优势。对比豆包视频通话助手，其在58个测试案例中取得77.6%的胜率；面对Gemini视频通话助手时，胜率更高达87.9%。评测覆盖监控预警、时间感知、直播导览等高实时性需求场景，验证了模型在主动响应与即时处理方面的领先性。
目前，该开源项目已提供完整部署方案，支持vLLM框架快速落地。开发者可基于现有代码库，快速开发安防监控、老人看护、电商导购等垂直领域应用。其模块化设计尤其适合需要定制化AI解决方案的企业，通过替换不同组件即可构建符合特定业务需求的智能助手。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果iOS/iPadOS 27.0开发者预览版Beta 2发布

雷军：攻击我的人只是为了流量

不想70万蓝领失业刘强东官宣京东员工转型培育方案

小米YU7 GT创全球纽北自动驾驶圈速新纪录：10分29秒483启新程

小米“寻天”SUV谍照来袭原厂自带车顶帐篷瞄准户外露营市场

暑期回国研学新选择：北上深杭科技之旅，让孩子边玩边学收获满满

全站最新

苹果iOS/iPadOS 27.0开发者预览版Beta 2发布

雷军：攻击我的人只是为了流量

不想70万蓝领失业刘强东官宣京东员工转型培育方案

小米YU7 GT创全球纽北自动驾驶圈速新纪录：10分29秒483启新程

热门推荐

苹果iOS/iPadOS 27.0开发者预览版Beta 2发布

雷军：攻击我的人只是为了流量

不想70万蓝领失业刘强东官宣京东员工转型培育方案

小米YU7 GT纽北自动驾驶圈速破纪录：高性能配置与智能驾驶的完美融合

XREAL AURA空间计算眼镜发布开启沉浸式体验新纪元助力“浦东智造”

120元捡漏骁龙845+10G内存双屏机！vivo NEX二手实测：划痕多但续航稳

联想之星险峰联合助力，芯感通以芯片级磁通门技术赋能AI与太空算力新发展

小米YU7 GT创全球纽北自动驾驶圈速新纪录：10分29秒483启新程

博主爆料：3家主流品牌将推7英寸大屏新机，配置升级或含万级大电池

高通骁龙8E6 Pro架构图曝光：多版本布局小米18 Pro Max或9月首发搭载

小米“寻天”SUV谍照来袭原厂自带车顶帐篷瞄准户外露营市场

吉利远程携手文远知行、冠忠巴士，共启右舵Robotaxi全球适配新征程

SpaceX创74天上市新纪录，OpenAI等或借东风，8月资本市场迎新局

马云领衔阿里高层下田插秧，蒋凡周靖人等现身共绘田园团建新图景

马云领衔阿里高管下田插秧挽裤光脚体验农耕田间欢声笑语不断