近来 ,智源智源研究院联合上海交通大学等组织正式发布了一款新一代超长视频了解模型——Video-XL-2。研究院开源轻这一模型的量级推出标志着长视频了解技能在开源范畴取得了重大突破,为多模态大模型在长视频内容了解方面的超长开展注入了新的生机 。
在技能架构方面,视频Video-XL-2首要由视觉编码器、解模动态Token组成模块(DTS)以及大言语模型(LLM)三个中心组件构成
近来 ,智源智源研究院联合上海交通大学等组织正式发布了一款新一代超长视频了解模型——Video-XL-2。研究院开源轻这一模型的量级推出标志着长视频了解技能在开源范畴取得了重大突破,为多模态大模型在长视频内容了解方面的超长开展注入了新的生机 。
在技能架构方面,视频Video-XL-2首要由视觉编码器、解模动态Token组成模块(DTS)以及大言语模型(LLM)三个中心组件构成