京东最新开源的实时视频视觉语言交互模型:JoyAI-VL-Interaction,让大模型从“一问一答”走向“边看边说”
也就是说它会像人一样“在场”,持续观察视频流,自主判断什么时候说话、什么时候沉默,并实时响应关键事件
在58个真人盲评的实时流式场景中,对豆包胜率77.6%、对Gemini胜率 87.9%,监控预警场景对两个基线均100%胜率
可以用来搭建需要持续观察、自主判断、即时响应的实景AI,比如说安防监控、老人儿童看护、直播讲解、电商导购、操作指导、AI眼镜等等
核心特点是主动判断非被动回答,它会持续观察视频流,来自主做判断,不是等用户发起问题才开始处理当前画面
比如说,当设置"裁判出示红牌时提醒我",模型就会持续值守画面,在事件发生时自动预警
第二个,它会面向正在发生的视频流即时响应,画面变化时即能响应
前台+后台的分工协作设计,前台模型实时观察视频流,后台大模型/Agent接复杂推理、代码生成、工具调用的重活
后台结果返回后前台自然接回对话,形成前台实时助手+后台智能大脑的协作系统,端侧用小模型持续值守,复杂任务才调用大模型,使得成本和延迟更可控
模型+数据+训练方案+可部署系统全栈开源,各模块可替换,拿去即能用
#
JoyAIVLInteraction# #
VLM#