鉴于qwen2vl对文本和图像做了对齐,所以希望能利用这个优势来做检索。请问如何分别利用qwen2vl分别提取图像和文本特征,用于做多模态检索?
· Sign up or log in to comment