京东近日正式对外开源了其自主研发的实时视频视觉语言交互模型——JoyAI-VL-Interaction。这一成果标志着全球首个全栈开源的interaction模型及系统诞生,并同步获得vLLM-Omni的day-0原生支持,为开发者社区提供了全新的技术工具。
据技术团队介绍,JoyAI-VL-Interaction的核心价值在于推动大模型从传统的“一问一答”模式升级为“边看边说”的动态交互形态。通过该框架,开发者能够快速构建具备持续观察能力、自主判断逻辑以及即时响应机制的实景AI助手,显著提升应用场景的智能化水平。
与传统模型相比,JoyAI-VL-Interaction实现了三方面技术突破:其一,支持主动判断功能,可基于环境变化自主触发交互行为;其二,具备实时响应能力,确保毫秒级延迟下的流畅交互体验;其三,创新引入适时智能体委托机制,在保持环境观察的同时优化计算资源分配。该系统兼容摄像头、直播流、监控流等多样化视频输入源,并支持语音交互、可视化界面、长期记忆存储、后台模型接口调用及vLLM部署方案,形成完整的开发生态闭环。
目前,该开源项目已向全球开发者开放代码库与技术文档,涵盖模型架构、训练方法、部署指南等核心内容。京东方面表示,此举旨在降低实时视频交互技术的开发门槛,加速AI技术在安防监控、智能客服、远程协作等领域的落地应用,推动行业向更高效的动态交互模式演进。





京公网安备 11011402013531号