加州大学通过知识提炼增强CLIP概念的渗透，从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合！

2025-07-22 22:47:39

加州大学通过知识提炼增强CLIP概念的渗透，从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合！近年来，CLIP 成为了多模态环境中对齐图像和文本的重要模型。然而，研究行人发现，CLIP 的文本编码器和图像编码器在从配对的描述和图像中提取详细知识方面存在局限性。为解决这一问题，本文提出了 Knowledge-CLIP，这是一种通过结合基于 Llama 2 的新知识蒸馏（

加州大学通过知识提炼增强CLIP概念的渗透，从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合！

近年来，CLIP 成为了多模态环境中对齐图像和文本的重要模型。然而，研究行人发现，CLIP 的文本编码器和图像编码器在从配对的描述和图像中提取详细知识方面存在局限性。为解决这一问题，本文提出了 Knowledge-CLIP，这是一种通过结合基于 Llama 2 的新知识蒸馏（KD）方法来提高 CLIP 性能的创新方法。作者的方法主要关注三个关键目标：文本嵌入蒸馏、概念学习和对比学习。首先，在文本嵌入蒸馏过程中，训练 Knowledge-CLIP 的文本编码器以模仿教师模型 Llama 2。接着，在概念学习阶段，通过在 Llama 2 的文本数据上进行离线 K-means 聚类，给每个描述图像配对分配一个软概念标签，从而让 Knowledge-CLIP 能够从中学习这些软概念标签。最后，在对比学习阶段，实现文本和图像嵌入的一致性。实验结果表明，所提出的模型能够提高文本编码器和图像编码器的性能。

1 Introduction

多模态编码器在视觉语言领域的预训练，例如CLIP（Radford等，2021），已被发现对学习源自图像和文本配对数据的可转移特征非常有益。CLIP的学习框架是对比式的，通常依赖于数据增强以消除不必要的插入和捷径。

这些模型，以CLIP为例，提出了它们在区分诸如“一只orangutan在吃和一个军官在飞行”与“一只orangutan 和一个军官在吃一只orangutan”这类句子结构方面的能力问题。自然场景因其复杂性而构成重大挑战，这种复杂性源于其中包含的众多目标及其属性以及彼此之间的相互作用。

然而，视觉与语言模型（VLMs）在众多已认可的基准测试上的出表现，并不一定表明这些模型全面理解了文本或图像的组成元素。

CLIP 面临的挑战源于其难以处理图像分割和目标检测任务，因为这需要每个像素标签的知识，Li 等人（2022）通过引入 GLIP 解决了这一问题。该方法通过预训练统一了目标检测和短语定位，有效利用了外部知识，即定位框。这种外部信息的整合有助于图像-语言数据的对齐，从而增强了模型处理复杂视觉任务的能力。

受其工作的启发，作者的目标是将现有的大语言模型中的外部知识整合进CLIP中，以进一步提升其整体质量。因此，作者引入了一种名为KnowledgeCLIP的创新方法论，它包含三重目标。

首先，作者将关注从大语言模型中提取知识蒸馏（KD），例如Llama 2（Touvron等，202），旨在提升CLIP文本编码器的质量。

其次，作者认为Llama 2生成的嵌入包含了比CLIP文本编码器更多的有价值属性和概念信息，比如颜和动作。因此，作者通过K-means聚类（Hartigan和Wong，1979）对Llama 2的嵌入进行处理，从中得出caption-image配对的软概念标签。

随后，作者利用这些软概念标签来进一步优化CLIP的文本和图像编码器的质量。最后，作者重用了CLIP中的对比目标，以持续地对齐文本和图像嵌入。

2 Related Works

2.1 Knowledge Distillation

知识蒸馏（KD）是一种训练技术，其中一台称为学生的神经网络被训练以模仿另一台被称为教师的神经网络的部分内容（Ba和Caruana, 2014）。最常见的方法是匹配教师网络的输出。然而，另一种选择是匹配隐藏层，从而实现更细致的知识传递（Romero等人, 2015；Aguilar等人, 2020）。

在这一过程中使用的损失函数方面，KL散度常用于匹配概率输出，而L2范数经常用于对齐隐藏向量（Kim等人, 2021）。该技术使得教师网络学习到的知识紧凑表示能够转移到学生网络中，从而提升学生网络的性能和泛化能力。

2.2 CLIP's Text Encoder

在多模态模型的背景下，诸如“一个戴有虚拟现实设备的UCLA计算机科学学生，在未来实验室中编程一种机器人助理，旁边是一位穿着实验服的教授”这类文本到图像的 Query ，体现了现代多模态模型的期望。

这种 Query 要求空间精度（例如，指定实体的位置）、组合理解能力（突出某些属性，比如一个UCLA计算机科学学生而不是一个UCLA计算机科学助理），并具备一定的想象力，描述可能不存在于现实中的情景。

然而，近期的研究揭示了一个显著的挑战。尽管多模态模型在基准测试中表现出较强的鲁棒性，但它们往往难以处理甚至最基本的推理任务，尤其是涉及空间关系或属性关联的任务。这些发现凸显了多模态模型在推理能力上的现有局限性，尤其是在面对复杂和富有想象力的文字输入时。

Method

.1 Problem Definition and Annotati

为了完整性，作者首先定义本文考虑的设置和符号。在训练过程中，作者有 () 组描述-图像对，表示为 (X = {X_1, X_2, ..., X_})。对于第 (i) 组描述-图像对，作者有一个描述和一幅图像，即 (X_i = (x_i^C, x_i^I))。如图1所示，作者提出的知识-CLIP包括五个模块：CLIP文本编码器 ((E_T))、CLIP图像编码器 ((E_I))、分类器 ((C))、线性 Projector ((W_e)) 和 Llama 2 ((L))。

.2 Text Embedding Distillation

在之前的一项知识蒸馏工作（Jiao等，2019）中，他们使用均方误差损失函数（MSE）有效地将的知识蒸馏到了TinyBERT。因此，作者将从Llama 2提取输出嵌入，并且目标如下：

提高CLIP编码器的质量，即文本编码器和图像编码器的质量。学习目标如下：

其中，矩阵。标量值和分别表示 CLIP 文本编码器和 Llama 2 的隐藏层大小。注意，矩阵是一个可学习的线性变换，它将的隐藏状态转换到与相同的空间中。

. Concept Learning

给定一个描述句子，其中可能存在多种属性或概念，例如颜、位置、动作等。然而，CLIP 文本编码器未能从前人的研究中提取这些信息。作者假设具有相同属性和概念的描述句子在 Llama 2 的嵌入表示中会有相似性。因此，作者利用聚类方法对输入描述句子时 Llama 2 输出的嵌入进行分类。然后，作者将聚类的结果视为软概念标签，并用表示之。值得注意的是，是一个类别变量。

获得软概念标签后，作者使用Llama 的嵌入及其相应的软标签来训练分类器。之后，作者冻结分类器，并使用它和图像及其相应的软标签来训练CLIP的图像编码器。目标如下：

其中，、和是超参数。

4 Experiment

其中，表示表示软概念标签的 GT 一_hot_向量。

.4 Contrastive Learning

在延续作者受CLIP启发的研究基础上，作者的方法涉及利用对比损失有效地对齐文本和图像嵌入。通过这种方式，作者旨在优化一个基于相似度分数的对称交叉熵损失，命名为。图2提供了伪代码的可视化表示，概述了CLIP实现的核心元素。

.5 Learning Objective

作者将文本嵌入蒸馏、概念学习和对比学习相结合，以进一步

4.1 Experimental settings

预训练数据集包含CLIP预训练数据的一部分。该数据集共有1570万条记录，作者选择了50万条记录用于模型训练，10万条记录用于模型评估。作者运行了100个epoch，学习率为，和均等于1，等于0.01。

4.2 Knowledge-CLIP的文本编码器

为了评估KnowledgeCLIP文本编码器的增强效果，作者采用了Kamath等人提出的评价标准（Kamath et al., 202）。评估过程如图所示，采用多阶段的方法进行。

在训练阶段，一个T5编码器根据输入句子被微调以生成文本嵌入。同时，一个T5解码器也被微调以产生与输入句子紧密匹配的输出句子。随后，Knowledge-CLIP和CLIP的文本编码器以及T5解码器被冻结。接着，线性 Transformer Layer 和层归一化层被微调以优化它们的性能。

在评估阶段，模型固定不变，基于输入句子生成输出句子。所采用的评价指标是精确匹配（Exact Match，EM），它反映了生成的输出与输入句子的一致程度。

4. Knowledge-CLIP's Image Encoder

在本研究中，作者的主要目标是评估Knowledge-CLIP图像编码器的质量。尽管传统的零样本学习任务（如分类）通常忽视属性值，假设这些属性值是可以理解的，作者的方法涉及对这些语义特征及其相关属性（例如颜、形状、腿、头等）进行更为详细的检查，这要求图像编码器具有更复杂的特性以与特定文本相匹配。

在这一背景下，作者的评估实验将首先为每张图片分配一个特定的类别。然后，基于给定的类别，作者预测属性描述。该实验探讨了由图像编码器生成的图像特征能够理解kmeans软标签的概念意义程度如何，并且评估作者提出的模型在语义实体学习与基于属性的识别之间桥接差距方面的有效性。

为了回答这个问题，作者利用了两个常见的基于属性的数据集AWA2，并探讨了基于属性的学习对作者提出的模型的影响。

CUB数据集包含11,788张200种不同鸟类的照片（来自Wah等人，2011）。每种鸟类都标注了12个二元属性。CUB为每张图片提供了属性信息，包括属性描述和表达方式。例如，某个属性可能的描述为：“具有 Head 图案”，表达为：“冠羽”。每个属性描述都有多种可能的表达方式。CUB还提供了类别属性，给出每类图像中出现该属性的概率。对于每种属性描述，作者选择概率最高的一个属性进行选取。因此，评价 Prompt 语为“一张<类别标签>照片，具有。”AWA2数据集包含50个动物类别的7,22张图像（来自Xian等人，2020）。每种类别都标注了85个二元属性。与CUB不同，AWA2的属性没有单独的描述和表达方式。因此，作者将这些属性以逗号分隔的方式附加在 Prompt 语的末尾。为了与CUB保持可比性，作者的评价 Prompt 语为“一张<类别标签>，具有属性，，...”。

在评估期间，对于每张图像，作者为每个类别C创建A个Prompt，其中C为类别的数量，A为数据集D中的属性数量。随后，作者计算图像I与这A个Prompt之间的余弦相似度，并对相似度值应用Softmax。与图像I最相似的Prompt对应的属性即为预测类别。

表2的结果显示，这种设置在AWA2和CUB上对Knowledge-CLIP略有益处，在这些情况下，作者的模型能够比CLIP模型稍微更好地学习到概念性的图像特征，但也请注意，这种性能提升并不明显。

5 Discussion

在本节中，作者探讨了Llama 2和CLIP文本编码器之间的区别，阐明了它们各自独特的特性。

此外，作者还探讨了通过将k-means聚类应用于Llama 2的嵌入而得到的软标签的潜在意义。

5.1 Llama 2 v.s. CLIP

为了通过利用 Llama 2 展示 CLIP 文本嵌入潜在改进的可能性，作者提出在相同的数据集设置下分析它们各自嵌入的分布特征。作者的假设认为，与 CLIP 相比，Llama 2 的文本嵌入显示出更均匀的分布，因为 Llama 2 提取了比 CLIP 更详细的文字信息。

嵌入提取：通过使用 Llama 2 和 CLIP 文本编码器从训练数据集中提取文本嵌入。这一初始步骤确保了嵌入是在相同条件下生成的，从而便于直接比较。

聚类分析：为了分析嵌入的分布情况，作者采用了-means 聚类方法，每种模型划分了1000个聚类中心。这种方法是一种无监督聚类方法，使作者能够在高维嵌入空间中识别出模式并对其进行分组。

从图4可以看出，Llama 2的嵌入分布明显比CLIP更加均匀。该可视化展示了嵌入空间中数据点的分散情况，支持了作者关于Llama 2嵌入增强均匀性的主张。此外，对每个聚类中最常见的标签进行检查还揭示出明显的差异。Llama 2通常包含较少的最常见的标签出现次数，表明它提供了比CLIP更具多样性的信息表示。

llama2的嵌入表现出这种一致性，表明它有可能捕捉到更广泛的语义细微差别，从而在句子之间做出更精细的区别。减少对常见标签的关注进一步暗示，llama2可能提供一种更丰富的表示方法，有助于区分句子之间的微妙差异。

基于这些发现，作者 Proposal 利用Llama 2的嵌入进行CLIP的微调。Llama 2提取文本数据中更细息的潜力可以增强CLIP区分句子的能力，从而在下游任务的整体性能上取得更好的效果。随后的部分将探讨微调过程，并评估其对零样本分类准确性的影响。

CLIP这种多模态视觉语言模型的整体质量。作者的方法利用了一个大语言模型Llama 2来指导图像编码器和文本编码器。实验结果显示，Knowledge-CLIP在提升CLIP文本编码器和图像编码器的质量方面具有显著效果。通过在CCM数据集上的全面评估，作者发现Knowledge-CLIP的精确匹配率高于CLIP。

此外，Knowledge-CLIP在使用属性数据集AWA2和CUB评估图像编码器质量时，表现也略优于CLIP。综上所述，Knowledge-CLIP提供了一种增强诸如CLIP这类多模态视觉语言模型能力的方法，通过引入外部知识、优化嵌入以及解决特定局限性。然而，为进一步优化模型以适应特定任务和领域，仍需进行更多的研究和实验。未来的工作可能包括探索更多数据集、调优超参数以及考察该模型在视觉语言理解中的不同下游任务的应用潜力。

5.2 Visualization of K-means clustering with Llama2

为了展示作者提出的软概念标签学到了什么，作者从CUB数据集中随机选择了具有不同属性的50个特定类别的样本进行实验（例如，下述实验使用了“黑足信天翁”）。然后，作者将LLaMA2的嵌入进行聚类，并可视化相应的聚类结果。

在图5中可以看出，每种属性的 llama2 表征被聚类到了同一个组别中，这表明作者的方法通过使用 K-means 软标签能够更好地利用概念学习。

本文参与腾讯云自媒体同步曝光计划，分享自。原始发表：2025-01-1，如有侵权请联系 cloudcommunity@tencent 删除优化模型数据网络性能

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/biancheng/1178241.html

本站网友感冒的症状	30分钟前发表
例如CLIP（Radford等
本站网友晋龙饲料	1分钟前发表
调优超参数以及考察该模型在视觉语言理解中的不同下游任务的应用潜力
本站网友昆明婚庆酒店	3分钟前发表
与图像I最相似的Prompt对应的属性即为预测类别
本站网友长清租房	4分钟前发表
即文本编码器和图像编码器的质量
本站网友昆山楼市网	8分钟前发表
优化嵌入以及解决特定局限性
本站网友宁波婚纱	28分钟前发表
从而让 Knowledge-CLIP 能够从中学习这些软概念标签
本站网友三井财团	28分钟前发表
Llama 2通常包含较少的最常见的标签出现次数
本站网友乔家大院门票	5分钟前发表
旁边是一位穿着实验服的教授”这类文本到图像的 Query

加州大学通过知识提炼增强CLIP概念的渗透，从 CLIP 到 KnowledgeCLIP 大语言模型赋能视觉语言融合！