VLm2Vec：基于 MMEB 训练，通用多模态嵌入模型的崛起！

2025-07-28 02:39:46

VLm2Vec：基于 MMEB 训练，通用多模态嵌入模型的崛起！嵌入模型对于实现各种下游任务如语义相似度、信息检索和聚类等至关重要。近年来，开发通用文本嵌入模型以实现跨任务泛化（例如MTEB）引起了广泛关注。然而，尽管它们非常重要，但学习通用多模态嵌入模型的进展仍然相对缓慢。在本工作中，作者旨在探索构建能够处理各种下游任务的通用嵌入模型的潜力。作者的贡献有两点：（1）MMEB（巨量多模态嵌入基

VLm2Vec：基于 MMEB 训练，通用多模态嵌入模型的崛起！

嵌入模型对于实现各种下游任务如语义相似度、信息检索和聚类等至关重要。近年来，开发通用文本嵌入模型以实现跨任务泛化（例如MTEB）引起了广泛关注。

然而，尽管它们非常重要，但学习通用多模态嵌入模型的进展仍然相对缓慢。在本工作中，作者旨在探索构建能够处理各种下游任务的通用嵌入模型的潜力。

作者的贡献有两点：

（1）MMEB（巨量多模态嵌入基准测试），涵盖4个元任务（即分类、视觉问答、多模态检索和视觉定位）和6个数据集，包括20个训练数据集和16个评估数据集，以及（2）VLm2Vec（视觉语言模型向量），一个对比训练框架，可以将任何最先进的视觉语言模型通过在MMEB上训练转换为嵌入模型。

与先前的模型（如CLIP和BLIP）不同，VLm2Vec可以处理任何图像和文本组合，根据任务指令生成固定维度的向量。作者在Phi-.5-V上构建了一系列VLm2Vec模型，并在MMEB的评估子集上评估它们。

作者的结果表明，VLm2Vec在MMEB中的现有多模态嵌入模型在分布内和分布外的数据集上实现了10%至20%的绝对平均改进。

1 Introduction

词向量或分布式表示将输入（无论是文本还是图像）编码为固定维度的向量，从而支持各种下游任务。自词向量（Word2Vec）（Mikolov，201）和全局词向量的出现以来，大量的研究工作致力于学习文本词向量和图像词向量。这些词向量支持各种应用，包括文本语义相似度（Agirre等人，2012；Marelli等人，2014；Chechik等人，2010；Cer等人，2017）、信息检索、自动评估（Zhang等人，2020；Sellam等人，2020）、上下文学习中的 Prompt 检索和检索增强生成。

最近，研究重点转向开发可以在各种任务上进行泛化的通用词向量。例如，Muennighoff等人（202）推出了MTEB（大规模文本词向量基准）来全面评估各种任务（如分类和聚类）中的文本词向量。MTEB已成为评估通用词向量的标准。

最近的一些工作在MTEB基准测试上取得了有前途的结果。然而，多模态词向量的进展相对较慢。尽管在词向量方面取得了进步，但多模态词向量领域仍然缺乏基准和方法。

当前多模态嵌入研究面临两个主要局限性：

(1) 现有研究通常在孤立的任务上评估视觉嵌入，如Imageet分类或MSCOCO/Flickr检索；

(2) 大多数现有模型，如CLIP（Radford等人，2021）、BLIP（Li等人，2022）和SigLIP（Zhai等人，202），要么分别处理文本和图像，要么对视觉和文本信息进行浅层次的融合（Wei等人，202），从而限制了它们在完全捕捉文本和图像模态之间的关系方面的能力。

此外，这些模型在复杂推理任务（尤其是零样本场景）的推理和泛化能力有限。

在本文中，作者试图构建一个通用的多模态嵌入框架，为未来的研究铺平道路，这包括两个努力：

作者提出了一个名为MMEB（大规模多模态嵌入基准）的新颖基准，该基准包括6个数据集，涵盖四个元任务类别：分类、视觉问答、检索和视觉定位。MMEB为训练和评估各种文本和图像模态的嵌入模型提供了一个全面的框架。所有任务都被重述为排序任务，其中模型遵循指令、处理 Query ，并从一组候选目标中选择正确的目标。 Query 和目标可以是图像、文本或两者的组合。MMEB分为20个内分布数据集，可用于训练，以及16个外分布数据集，用于评估。

VLm2Vec: 作者采用预训练的视觉语言模型Phi-.5-V（Abdin等人，2024年）作为VLm2Vec的 Backbone 。与诸如UniIR（Wei等人，202年）和MagicLens（Zhang等人，2024年）等其他多模态嵌入模型相比，作者的方法利用 Transformer 架构在自注意力机制中深入集成视觉和语言特征。

这种方法具有以下几个优点：

视觉语言模型在庞大的多模态数据集上进行训练，可以处理任何图像与文本的组合，以及高分辨率的图像和长文本输入；
视觉和语言特征在 Transformer 模型中深度融合，提高了模型捕捉跨模态关系的能力；
这些模型非常适合泛化到多种任务，尤其是需要遵循指令的能力。这些因素使得VLm2Vec成为任务泛化的理想选择。作者在20 MMEB训练数据集上训练VLm2Vec，并使用对比学习方法，将其性能与各种 Baseline 进行了比较。

在进行了广泛的对比训练后，VLm2Vec可以处理任何图像和文本的组合，生成固定维度的向量。作者将VLm2Vec与各种多模态嵌入模型进行了比较，包括CLIP（Radford等人，2021年），BLIP2（李等人，202a年），SigLIP（赵等人，202年），MagicLens（张等人，2024年），UniIR（魏等人，202年）和E5V（江等人，2024年），在所有任务类别中实现了持续的改进。

2 MMEB: A Benchmark for Multimodal Embeddings

Dataset Overview

作者提出了 MMEB（大规模多模态嵌入基准），这是一个全面的基准，旨在在各种任务上评估多模态嵌入。MMEB 包括 6 个数据集，分为四个元任务：分类、视觉问答、检索和视觉定位。每个任务都被重述为一个排序问题，其中模型被提供指示和 Query （可能包括文本、图像或两者）并从一组候选中选择正确答案。

这些候选可以是文本、图像或额外的指示。数据集分为两类：20个在分布数据集用于训练和在分布数据集用于评估，共有16个。作者报告了所有 6 个任务的性能指标。MMEB 的概述如图2 所示，数据集统计信息如表1 所示。

嵌入模型应当将 Query 侧压缩为向量，将目标候选项压缩为一组向量。具有最大点积的候选项将被选为评估预测的候选项。作者测量Precision@1以反映 GT 值中顶级候选项匹配的百分比。为了确保任务难度，作者引入了大量候选项。

MMEB提供了来自各种领域的广泛任务，如常见、新闻、、网页和时尚等。基准涵盖了 Query 和目标的不同模态组合，包括文本、图像和文本-图像对。此外，任务还设计为遵循不同的指令类型。例如，任务可能涉及物体识别（例如，“识别图片中的物体。”），检索（例如，“到符合给定描述的图像。”）或视觉定位（例如，“选择回答问题的图像部分。”）。MMEB中每个数据集的示例分别已在表6、7、8和9中提供。MMEB的多样性使其成为通用嵌入的理想测试平台。

Meta-task and Dataset Design

MMEB 分为四个主要的元任务类别：

类别包括5个在分布中的数据集和5个不在分布中的数据集。 Query 由指令和图像组成，可选项伴随相关文本。目标为类标签，类标签的数量与数据集中的类数相符。

视觉问答类别包括6个在分布中的数据集和4个不在分布中的数据集。 Query 包括一个指令、一张图像和一个问题中的文本作为答案，而目标则是答案。每个 Query 有1000个目标候选项：1个真实值和999个干扰项。

信息检索类别包含8个内分布数据集和4个外分布数据集。 Query 和目标侧可以涉及文本、图像和指令的组合。类似于VQA任务，每个 Query 有1000个候选项，其中1个为真实值，其余为干扰项。

视觉定位这一类别包括1个在分布中的数据集和个不在分布中的数据集，这些数据集均来自目标检测任务。 Query 包括指令、图像和图像定区域或目标的文本描述。目标可能包括裁剪后的目标图像或描述相同区域的文本。每个 Query 包括1000个候选项：1个真实值和999个干扰项。这些干扰项可能包括同一物体类别的硬负样本、图像中的其他物体或来自不同图像的随机物体。

这项任务评估了模型在不同模态（图像或文本）和不同视角下识别和表示相同物体或概念的能力。该任务涉及根据提供的指示或语言表达式在图像中正确识别或引用特定区域或物体。

Vlm2Vec: Transforming LVMs to Embedders

Contrastive Training

作者开发了Vlm2Vec，这是一个对比训练框架，旨在将任何最先进的视觉语言模型转换为嵌入模型，如图所示。相关的问题-目标对可以表示为()。和可以是单张图像、文本或单张图像+文本。作者定义和。

作者将指令应用于原始 Query ，生成一个新的 Query ：

为了通过更好地理解指令来增强嵌入模型的泛化能力，作者制定了针对特定任务的指令，如表6、7、8和9所示。

对于预训练的VLM，作者在 Query 和目标后添加一个[EOS] Token ，然后将其输入到VLM中，通过取最后一层[EOS]向量获得 Query 和目标嵌入()。在训练嵌入模型时，作者采用针对同一batch中的负样本和硬负样本的标准InfoCE损失：

表示所有负数的集合, 是一个函数,计算 Query 和目标之间的匹配分值。在本论文中,作者采用以下温度缩放余弦相似函数:

是一个温度超参数。

Increasing Batch Size Through GradCache

由于对于大多数多模态数据集，硬负样本往往难以或具有歧义地收集，因此使用更大的批量大小变得至关重要。这会增加同一批中的随机负样本数量，从而有助于提高嵌入模型的性能。

存在一个GPU内存 Bottleneck ，这限制了作者在训练过程中增加批处理大小和批量随机负样本的数量。因为每个训练实例可能包括一个图像（来自 Query 侧或目标侧），或者多个图像（来自 Query 和目标两侧），导致内存消耗巨大。作者应用了GradCache（Gao等人，2021年），这是一种梯度缓存技术，将对比损失与编码器解耦，消除了在批处理维度上的编码器反向传播数据依赖性。

数学上，假设作者有一大批 Query ，作者将它分成一组子批次，每个子批次都可以被内存容纳，以便计算梯度：。有两个主要步骤：“表示梯度计算和缓存”和“子批次梯度累积”。首先，计算并存储每个子批次内部的梯度张量：。

然后，在所有子批次上累积编码器参数的梯度：

4 Experiments

Experiment Settings

在本文中，作者采用Phi-.5-V（Abdin等人，2024年）作为作者的基础VLM，通过全模型微调或LoRa进行训练。温度设置为0.02。作者探索了多种实验配置来评估关键超参数的影响，例如批量大小和输入长度。在基本设置中，作者使用批量大小为256，2000个训练步骤，4个图像块，最大文本长度为256个 Token 。关于这些参数的详细消融研究将在第4.4节中讨论。

对于20个训练数据集，如果一个数据集包含超过50K个样本，作者随机选择50K个样本以保持一致性，从而得到一个总训练集为662K个数据点的集合。在使用GradCache时，作者将子批次大小设置为4以实现模型完全调优，总批次大小累加到1024。所有实验均在8个H100 GPU上运行。

Baselines

CLIP-家族： 作者使用诸如CLIP（Radford等人，2021年）、OpenCLIP（Cherti等人，202年）、SigLIP（Zhai等人，202年）和BLIP2（Li等人，202年）等视觉/语言编码器作为作者的 Baseline 。由于文本编码器的限制，某些任务中的 Query 或目标文本可能会被截断。作者通过将多模态特征使用标量相加并赋予相等权重（）进行级联融合。正如UniIR（Wei等人，202年）所观察到的，作者不使用指令，因为这样做可能会降低性能。

UniIR: UniIR（Wei等人，202）是一种统一的、基于指令的跨模态检索器，旨在处理多个模态下的八个不同的检索任务。该模型基于CLIP和BLIP，采用了浅层融合技术，如分数级和特征级融合，以集成模态。在本研究中，作者使用BLIP_FF变体作为基准。

MagicLens: MagicLens (张等人，2024年) 是一种自监督图像检索模型，能够处理开放式指令。它采用了一个双编码器架构，共享参数，用CoCa或CLIP初始化视觉和语言编码器。该模型使用多头自注意力池来将多模态输入统一为一个嵌入。在本研究中，作者使用CLIP-Large Backbone 网络报告结果。由于MagicLens需要图像输入，作者用文本编码器的输出向量表示纯文本输入。

E5-V（江等人，2024年）是一种当代模型，也利用了视觉语言模型进行多模态嵌入任务。它提出了一种单模态训练方法，即模型仅在文本对上进行训练。

E5-V在三个多模态检索任务上表现出了强大的性能。相比之下，作者提出了MMEB，将其评估范围扩展到了更大且更多样化的任务集。

此外，作者的模型在多模态对上进行训练，包括 Query 和目标两侧的各种图像和文本模态组合。

Main Result

作者报告了表2中所有模型的Precision@1。它衡量了所有 Query 中阳性候选被排名首位的比例。对于VLm2Vec，LoRA和完全微调的变体遵循相同的设置，包括1024个训练批处理大小，2K训练步骤和4个子图像块。LoRA变体使用一个排名为8。

从表2可以看出，VLm2Vec的LoRA版本是最好的变体，在MMEB的6个数据集上实现了1平均精确率@1的60.1%。

此外，在零样本评估的16个数据集之外的任务上，它保持了1平均精确率@1的52.0%，表明了强大的泛化能力。这表明，当作者的模型在来自不同任务类别、领域和模式组合的数据集上得到良好训练时，可以有效地遵循指示来对齐视觉和文本空间，并对未见过的任务进行良好的泛化。

与其他 Baseline 模型相比，作者观察到作者的模型在所有元任务类别中都有持续的改进。值得注意的是，作者的模型在所有6个MMEB数据集上和16个非分布数据集上都取得了11.6个点的改进（从40.4到52.0）。

此外，与 Baseline 模型不同，作者的VLm2Vec模型在所有四个元任务类别上（至少50%）都表现出相对强大的性能。这突显了它有效处理各种多模态嵌入任务的能力。

值得注意的是，作者的当前工作E5-V（Wang等人，2022a）也基于视觉语言模型，但其表现远不如VLm2Vec。这是因为E5-V仅使用文本数据进行训练，没有使用多模态数据。

Result Analysis

为了训练一个有效且泛化的多模态嵌入，需要考虑各种因素，从数据到训练设置。在本节中，作者将详细研究这些因素。

作者将讨论两种训练设置：全量微调与LoRA，以及训练参数，以及与数据相关的两个主题：元任务泛化和本节中指令的影响。

4.4.1 Full Fine-Tuning vs. LoRA

在微调VLMs时，一个关键的决定是是否进行完全的微调，即更新模型的所有参数，还是使用像LoRA这样的参数高效的微调方法。

作者将VLm2Vec完全微调与其LoRA变体在不同秩下的性能进行比较。所有模型的训练和数据集设置保持一致。作者观察到，当秩适当配置时，LoRA性能更好。

4.4.2 Training parameters

在作者的实验中，作者确定了三个关键参数，这些参数显著影响了VLm2Vec的性能：训练批次大小、子图像裁剪数量和训练步数。如图4所示，随着批次大小、训练步数和子图像裁剪数量的增加，最终性能逐渐提高。作者特别想强调批次大小的影响。由于缺乏硬负样本，使用具有大量随机负样本的大批次大小，并借助GradCache技术，对于增强VLm2Vec的性能起着至关重要的作用，如第.2节所述。

4.4. Meta-task generalization

作者已经证明，VLm2Vec在遵循多样性内分布数据集训练后，能够在非分布数据集上实现迁移学习，采用指令遵循设置。一个有趣的问题是，专注于特定的元任务是否可以提高模型的总体泛化能力。作者训练了三个专注于单一元任务（分类、视觉问答和检索）的模型。由于数据集数量有限，视觉定位并未包括在内。然后，作者评估了这些模型在其他元任务上的迁移能力。作者将这三个模型称为VLM2VecRET，在8个检索任务上训练，VLM2VecVQA，在6个视觉问答任务上训练，VLM2VecCLS，在5个分类任务上训练。

图5说明了这三个模型在未见元任务上的泛化能力。作者可以观察到，与其他两个模型相比，VLM2VecRET在其它元任务上的泛化能力更好，尤其是在视觉定位类别上。这是因为检索任务涉及到来自 Query 和目标侧的文本和视觉模态的更多样化组合，这有助于模型在未见元任务上更好地泛化。这一观察突显了在VLM2VFC训练过程中使用更多样化任务的益处。

4.4.4 Impact of Instructi

以往的研究表明，指令对解决各种任务有影响。VLM2Vec，作为其背后的核心，在大规模数据集上进行指令训练，预计可以更好地泛化到任务，并提高多模态嵌入任务的表现。在本节中，作者将评估VLM2Vec在有无特定任务指令下的性能，以量化将指令集成到嵌入过程中的影响。如表4所示，排除指令导致平均性能下降约0%，突显了指令引导嵌入的重要性。

5 Related Work

Text Embedding

词向量在驱动下游应用方面展示了巨大的潜力，例如信息检索（Karpukhin等人，2020年；Xiong等人，2020年）、文本相似度（Gao等人，2021年）、在上下文中学习的 Prompt 检索（Hongjin等人，2022年）、分类（Logeswaran和Lee，2018年；Reimers和Gurevych，2019年）。早期的工作主要集中在为特定任务创建有效的词向量。

随着预训练语言模型的兴起，努力转向开发能够处理各种词向量任务的通用词向量模型。例如GTR（i等人，2022年）和E5利用大量噪声配对数据预训练和微调密集检索器。

近年来，TART（Asai等人，2022年）和InstructOR（Su等人，202年）引入了自然语言 Prompt 来引导词向量模型产生任务相关的词向量。在此基础上，模型如ESMistral（Wang等人，2024年）、SFR-Embedding（Meng等人，2024年）、RepLLaMA（Ma等人，2024b年）、GTE-Qwen2（Li等人，202b年）和V-Embed（Lee等人，2024年）利用预训练大型语言模型（LLMs）作为其 Backbone ，并用多任务数据和指令进行微调。

这些模型已经显著改善了早期不使用LLMs进行初始化或指令调优的方法。然而，这些进步是以成本增加为代价的：模型的大小和输出向量的维度都有大幅增加，导致了更高的成本。

Multimodal Embeddings

自从CLIP(Radford等，2021年)、BLIP(Li等人，2022年；Li等人，202年a)、Align(Jia等人，2021年)、SigLIP(Zhai等人，202年)、SimVLM Wang等人(2022b)和CoCa(Yu等人，2022年)等早期工作以来，多模态嵌入一直是重要研究挑战。这些模型通常将图像和文本分别编码，并将其映射到共享空间。这种方法为最近的更通用的多模态模型，如LLaVA(Liu等人，2024年)奠定了基础。

大多数关于通用多模态嵌入的研究涉及微调模型如CLIP或BLIP，通常使用简单的融合机制将视觉和语言信息相结合。例如，UniR（Wei等人，202）通过简单地添加文本和视觉特征来创建多模态嵌入，而MagicLens（Zhang等人，2024）则采用浅层自注意力层更有效地集成这些特征。

与作者的研究最相似的是E5-V（Jiang等人，2024），它将多模态生成模型转换为嵌入模型。作者将作者的方法与E5-V进行比较，并发现作者的模型在性能上取得了显著的改进。

Embedding Benchmarks

已经做出了大量努力来开发评估检索系统的基准。对于文本检索模型，MS MARCO（guyen等人，2016年）和自然问题（Kwiatkowski等人，2019年）是在一般领域中使用最广泛的两个基准。为了在更广泛的领域内扩大评估范围，BEIR（Thakur等人）被引入，其中包括来自各个领域的18个数据集。

在这个基础上，MTEB（Muennighoff等人，202年）进一步扩展了BEIR的范围，添加了更多任务，如分类、聚类和语义文本相似性（STS），以评估嵌入模型的泛化能力。

对于多模态检索，已经提出了几个基准测试来评估模型在不同模态上的性能。MBEIR（Wei等人，202年）包括8个任务和16个数据集，旨在测试模型根据各种 Query （文本、图像或组合）和跨多个模态的指令检索信息的能力。

6 Conclusion

在本文中，作者旨在构建第一个大规模的多模态嵌入框架，包括两个主要组件：MMEB和VLM2VEC。

MMEB包括横跨四个元任务类别的6个数据集，为嵌入模型的训练和评估提供了一个全面而多样化的框架。

VLM2VEC利用VLMs作为 Backbone ，深度地将视觉和文本空间进行融合，通过遵循指令增强了泛化到未见任务的能力。

参考文献

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

本文参与腾讯云自媒体同步曝光计划，分享自。原始发表：2025-01-09，如有侵权请联系 cloudcommunity@tencent 删除模型数据性能开发框架

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/biancheng/1186366.html

本站网友鸭子养殖	28分钟前发表
然而
本站网友怎么样减腹部	4分钟前发表
尤其是需要遵循指令的能力
本站网友招聘难	3分钟前发表
202b年）和V-Embed（Lee等人
本站网友梦见蛇好不好	1秒前发表
作者旨在构建第一个大规模的多模态嵌入框架
本站网友百度的另一个域名	6分钟前发表
2022年）和InstructOR（Su等人
本站网友四川书市	28分钟前发表
UniR（Wei等人

VLm2Vec：基于 MMEB 训练，通用多模态嵌入模型的崛起！