基于梯度解释在 Transformer 的困境突破 LibraGrad 表现卓越 !
基于梯度解释在 Transformer 的困境突破 LibraGrad 表现卓越 !
为什么基于梯度的解释在Transformer中存在困难,以及如何改进它们?作者发现Transformer中存在违反全梯度完备性的梯度流不平衡,这是C自然具有的归因忠实度关键属性。 为了解决这个问题,作者引入了LibraGrad——一种理论上基于的后处理方法,通过剪枝和缩放反向路径来纠正梯度不平衡,而无需改变前向传递或增加计算开销。 作者使用三个指标家族评估LibraGrad:信仰度量(Faithfulness),它衡量在最具和最不相关特征的扰动下的预测变化;完整性误差(Completeness Error),它衡量相对于模型输出的归因保留;以及分割AP(Segmentation AP),它评估与人类感知的一致性。 在8种架构、4种模型大小和4个数据集上的广泛实验表明,LibraGrad普遍增强了基于梯度的方法,在所有指标上均优于现有白盒方法,包括针对Transformer的特定方法。 作者通过两种互补评估展示了优越的定性结果:在CLIP模型上精确文本 Prompt 区域高亮度,以及在Imageet-finetuned模型上准确区分同时出现的动物类别——在这些设置上,现有方法往往难以实现。LibraGrad在无注意力(MLP-Mixer)架构上同样有效,表明有可能将其扩展到其他现代架构。 作者的代码。
理解深度学习模型如何做出决策对于在医疗和自动驾驶等关键应用中部署它们至关重要。输入贡献方法,它们量化单个输入特征对模型输出的影响,有助于作者理解模型对单个输入的决策,同时也为高级解释技术如CRAFT[1]等提供了构建模块。
在C可解释性领域,基于梯度的属性技术——特别是集成梯度(Integrated Gradients)[77]和FullGrad[75]——为模型解释奠定了基础。然而,由视觉 Transformer (ViTs)[25, 82]引发的建筑范式转变暴露了这些基于梯度的方法的局限性,有时基于注意的属性方法会取得更大的成功。混合方法,包括GenAtt[16],TokenTM[87]和AttCAT[61],试图通过结合梯度和基于注意的方法来弥合这一差距。然而,仍然存在重大挑战:这些方法缺乏理论基础,很难有效地区分类别,产生噪声的属性图,并且通常仅适用于特定的模型架构。
在这项工作中,作者出了基于梯度方法失败的根本原因:反向传播过程中的不均衡梯度流会导致不准确的属性评分。作者证明了,尽管经典的C自然通过其局部仿射操作保留了正确的梯度流,但现代Transformer的几个组件破坏了这一属性。
作者的解决方案 LibraGrad 采取了一种不同的方法:它通过理论驱动的前向路径修剪和缩放,从源头上防止畸变发生,而不会影响前向传播。作者在8种架构、4种模型大小和4个数据集上进行了全面的实验,结果显示这不仅提高了所有基于梯度的属性方法,而且还揭示了专门的注意力-梯度混合是不必要的——一旦梯度正常 Stream ,通用的 Libra FullGrad+ 就能实现优越或可比的性能。作者还扩展了集成梯度(IG)[77],并将其与其他基于梯度的方法相结合,比较了 LibraGrad 和 IG 的通用改进方面,结果显示 LibraGrad 远远超过了 IG。此外,作者从理论上证明了这一点是合理的。
给定一个多输出神经模型,设 是一个选择的输出函数。例如,如果模型 表示类概率,作者可能选择 来分析模型对第 i 类预测。一个归因方法 生成每个特征 的相关性得分 。
Gradient-Based Attribution Methods
定义1:对于所有,如果存在一个函数,使得存在且满足,那么作者就说函数是FullGrad-complete(或FG-complete)。
其中 是 关于 的雅可比矩阵, 是 关于偏置项 的雅可比矩阵。
FG-完备性确保了特征贡献的总和等于模型的输出,没有未解释的残差。这对于忠实解释至关重要,因为它确保了所有影响输出的因素都在贡献分数中得到考虑,而没有将任何额外的因素归因于输入。在接下来的部分中,作者将:
确证经典神经架构是FG-完全的,从而解释了基于梯度的归因在这些模型上的历史成功(SS.1)。
识别在Transformer中打破FG-完备性(SS.2)的非局部非仿射层。
分析这一现象如何导致梯度 Stream 不平衡(SS.)。
开发理论解决方案以恢复平衡梯度,引入 LibraGrad (SS.4)。
FG-Completeness of Classical Architectures
作者首先证明了经典的卷积神经网络(Cs)和多层感知机(MLPs)满足FG-完备性,这解释了为什么基于梯度的归因方法对这些架构有效。首先,作者引入了局部仿射函数的概念。
定义2:对于实数域R的n维向量f: R^n → R^m,如果在n维实数点x0处存在一个开邻域U⊂R^n,一个矩阵W(x0)∈R^m×n,以及一个向量b(x0)∈R^m,满足以下条件:
许多神经网络中使用的激活函数(如ReLU)几乎处处都是分段线性的,因此局部上是仿射的。作者的下一个定理表明,局部仿射函数满足FG-完备性。
定理1:在任何局部仿射函数在处,其在邻域内都是FG-完备的。 此外,作者可以构造这样的函数并保持FG-完备性:
定理2:_有限数量的FG-完全函数的乘积仍然是FG-完全的._接下来,作者证明FG-完备性在加法下得到保持。这一性质对于具有残差连接的神经网络尤为相关,其中某层的输出是其输入的和。
定理:设 是 FG-完备函数。则它们的和 也是 FG-完备的。作者可以现在断言,经典的神经网络架构是 FG-完备的:
Corollary 1:
经典神经网络使用几种类型的仿射变换:
- 线性: _, **
- 卷积: 具有空间权重共享, 广播到每个通道_
- 池化: 平均池化,全局平均池化(卷积的特殊情况)_
- 批量归一化(评估): , _
- 层缩放: , _
结合分段线性激活(定理1)和 Shortcut (定理),这些网络在上是FG完全的(定理2),其中表示线性区域的边界之和。
on-Locally-Affine Layers in Transformers
尽管经典架构具有全对易性,但现代Transformer模型引入了几个非局部仿射操作,破坏了这一性质:
门控激活:类似于 GELU 和 SiLU(Swish)[69] 的函数涉及非线性门控机制。
注意力机制:自注意力层和交叉注意力层根据非线性注意力得分进行加权平均。
乘法特征融合: 例如自注意力机制(例如SwiGLU [69],MambaOut [91])涉及不同前馈分支元素级的乘法运算。
归一化: Layerorm除以标准差,引入了除法操作。
这些操作涉及乘法(其中除法是特殊情况)相互作用和非线性变换,这些变换破坏了用于FG完备性的线性性,导致梯度 Stream 不平衡和归因失败,作者将在下一节中讨论这一点。
Analysis of Gradient Flow Imbalance
现在作者分析每个非局部仿射操作如何影响梯度 Stream 。首先,考虑两个完全仿射函数的逐元素乘法:
命题1::设 为 FG-完备函数,且 为它们的元素乘积与雅可比矩阵。
然后不是FG-完备。具体来说:
迄今为止,作者假设在乘法之前,两条路径都是 FG-完备的。当它们不是时,会发生什么?虽然每个这样的案例都需要其自己的数学证明,但乘法往往加剧了任何现有的梯度 Stream 不平衡,而不是恢复 FG-完备性。两个关键的例子说明了这一点:除法(一种非线性乘法运算),作者接下来进行分析,以及 SiLU,根据附录中的命题 4 证明其缺乏 FG-完备性。
命题2:设为FG-完备函数,且非零。在元素乘积上,FullGrad恰好等于零。命题2要求两个项都具有FG-完备性,而Layerorm的分母未能满足此条件。然而,作者将在以下证明中展示,这并不能使Layerorm免于FullGrad消失。
命题:对于无仿射参数的Layerorm操作:
和 ,FullGrad 方法随着 接近零而趋于零:_
LibraGrad: Theoretical Foundati
作者现在正在开发理论解决方案来恢复平衡的梯度 Stream 。
定理4:设 为 FG-完备函数。那么,当其元素乘积 的雅可比矩阵定义有缩放系数 ,且 时, 是 FG-完备的。
定理5:设为任意函数(不一定是FG-完备),且为它们的元素乘积。考虑具有缩放雅可比函数的,如定理4定义的那样。则:_1. 当时,有估计,其中估计为零梯度运算符,为FG-完备当且仅当为FG-完备._2. 对称地,当时,如果为FG-完备,则为FG-完备。
在处理乘法相互作用时,作者面临一个选择:理想情况下,如果两条路径都是 FG-完备的(定理4),作者可以放大梯度,同时保留两条路径的信息,或者——当一条路径缺乏 FG-完备性时——作者可以通过依赖只有一个 FG-完备的路径(定理5)来修剪路径,以恢复 FG-完备性。
推论2:通过将除法视为元素乘以梯度修剪的非线性倒数:估计,其中满足-完备性,根据定理5,可以将除法操作变得-完备。对于像Layerorm这样的除法操作,推论2展示了将除数在反向传播中视为常数如何恢复正确的梯度 Stream 。
这些理论结果提出了一种普遍原理:通过有策略地剪枝和缩放反向路径,可以实现平衡的梯度 Stream ,而无需修改正向计算。这种剪枝和缩放可以通过以下两种梯度操作符实现:
常数运算子。估计常数运算子 满足:
SwapBackward.The SwapBackward 运算符,其中 ,定义如下:
LibraGrad: Practical Implementation
Libra 神经运算. 现在作者定义了常见非仿射运算的 FG-完备版本:
Libra 注意力:在注意力机制中,作者限制梯度传播仅限于值分支,使得此操作在局部上具有仿射性质,因此是 FG-完全(定理 1):
对于像 GELU 和 SiLU 这样的有门控激活函数,作者舍弃非线性门控激活函数的梯度:
Libra自适应门控:在自适应门控操作中,如SwiGLU,输入通过双平行前馈路径(, ) Stream ,并通过逐元素乘法合并。为了在分支之间平衡梯度 Stream ,作者将每个分支的梯度乘以:
Libra Layerorm: Using Corollary 2 and the Linearity of Expectation ()
推论:当所有非线性组件(特别是其注意力机制、激活函数、自注意力操作和Layerorms)都被替换为Libra对应物时,一种Transformer架构达到了FG-完备性。通用改进。虽然作者的理论讨论集中在实现FG-完备性,但实证结果表明,LibraGrad的梯度平衡机制普遍增强了基于梯度的归因方法。直观地,这是因为标准的梯度流存在两个基本缺陷:它过分强调了局部敏感模块,并且在像Layerorm这样的操作中,为分母分配了不利的负信号。
作者通过三个互补指标对LibraGrad进行评估:忠实度、完整性误差和分段。为确保统计有效性,作者报告了所有实证结果的标准差上界。在表格中,作者使用粗体和下划线格式分别表示每列中的最佳和次佳结果。
Experimental Setup
架构:使用了以下八种模型家族(ViT [25],EVA2 [28, 29, 76],BEiT2 [7, 59],FlexiViT [11],SigLIP1 [92],CLIP [62],DeiT [80, 81],MLP-Mixer [79]),并采用它们在Imageet-1k [24]上的最大2 finetuned版本。脚注1:SigLIP缺少CLS Token ,因此某些基于注意力的方法不适用。
模型大小:所有ViT变体:微型(ViT-T),小型(ViT-S),基础(ViT-B),大型(ViT-L)。
忠诚度指标。作者使用忠诚度指标来评估各种归因方法,这些指标量化了归因得分如何准确地反映了模型预测中输入特征的重要性。这些广泛使用的指标[1, 20, 2, 49, 52, 54, 87]衡量了作者在不同顺序下逐步遮挡输入特征时,模型行为的改变。在这里,作者报告了最影响力首先删除(MIF)指标,并测量预测标签和准确性,该指标通过降低归因重要性的方式跟踪遮挡特征时性能的下降。有关此以及相关指标(最不影响力首先删除,LIF和对称相关增益,SRG)的详细信息,包括完整的所有指标结果,都提供了在附录B.2中。附录D提供了所有指标的综合结果。
作者在Imageet[24]数据集[24]上评估所有架构[24]——这是[17, 49, 87, 89]中[17, 49, 87, 89]的[17, 49, 87, 89]标准[17, 49, 87, 89]基准[17, 49, 87, 89]。在ViT-B上,作者还尝试了[22]多个其他数据集:Imageet-Hard[78],以及[22]后续[22]的MURA(一个医学X光数据集)[6]和Oxford-IIIIT Pet[58]。Imageet-Hard是一个具有来自各种现有Imageet变体的图像[64],Imageet-Sketch[84],Imageet-C[6],Imageet-R[7],Imageet-Real[10],Imageet-A[8],和Objectet[8]的图像[64],Imageet-Sketch[84],Imageet-C[6],Imageet-R[7],Imageet-Real[10],Imageet-A[8],和Objectet[8]的数据集[64],Imageet-Sketch[84],Imageet-C[6],Imageet-R[7],Imageet-Real[10],Imageet-A[8],和Objectet[8]的数据集[64]的图像[64],Imageet-Sketch[84],Imageet-C[6],Imageet-R[7],Imageet-Real[10],Imageet-A[8],和Objectet[8]的数据集[64]的图像[64]的数据集[64]。作者使用固定种子从每个数据集[64]中随机选择1000张图像[64]。
完整性错误。作者使用完整性错误来验证理论保证和验证实现正确性:
较低的CE值表示模型输出在归因分数中的保留情况更好。由于这只是一个验证,作者只使用了Imageet数据集的100张随机图像。有关更多详细信息的见附录B.1。
对于分割任务,作者遵循 [49] 的做法,选择 Imageet-S [4],它包括 919 个不同的类别,使用验证集的 5000 张随机子集。分割 Mask 提供目标边界的真实标注,它们作为客观的参考标准,用于评估特征分配方法识别出对模型预测真正有贡献的图像区域的程度。有关更多信息,请参见附录 B.。
Quantitative Results
作者对LibraGrad在所有测试的模型、架构和数据集上的梯度基础归因方法进行了评估。结果表明,LibraGrad在提高这些方法的一致性方面取得了显著改进(请参见附录D以获取全面结果)。在忠实度和分割指标(表6和)方面都观察到了显著改善(表4),Libra FullGrad实现了最优的完整性误差(表4)。这些改进在不同模型规模(附录D.)和数据集(表2,附录D.4)上保持一致,并扩展到注意力免费的MLP-Mixer(附录D.5.1),证实了梯度流不平衡,而非注意力机制,才是核心问题。
结合梯度。作者还扩展了IG [77],并将其与其他基于梯度的方法相结合,并在附录D.1中比较了LibraGrad和IG的普遍改进方面,表明LibraGrad在IG之上有着显著的优势。由于数值不稳定,IG的实际近似在零 Baseline (表4)方面无法满足其理论上的完备性。此外,作者证明了在固定步长近似下观察到的数值不稳定在理论上是不可避免的(附录中的命题5)。
通用方法已经足够。一旦梯度流得到校正,通用全Grad+ 在大多数指标和模型上超过了Transformer特定方法如GenAtt、TokenTM和AttCAT,只有极少数例外,其性能仍然具有竞争力。这表明,在梯度流得到适当平衡时,专门架构可能不需要专门的归因方法。
消融实验.作者的消融实验(见表5)揭示了三个关键见解:首先,虽然门控激活理论上破坏了FG完备性(命题4),但它们在实际中的影响微乎其微,因为它们通常在饱和状态下运行。其次,LAYER ORM理论上预测的消失归因问题在实际中得到了证实,成为最重要的因素。最后,虽然偏置项对于理论完备性是必要的,但它们在实际中的影响较小,表明实现可以有选择地省略它们而不会造成严重后果。
Qualitative Analysis
作者通过两种互补的场景来评估Libra FullGrad+:(1)使用CLIP模型进行文本 Prompt 的区域属性,证明在复杂场景中 Prompt 元素的精确定位(图1,附录C.1),以及(2)在COCO图像上进行类别区分,展示同时出现动物之间的准确区分(图2,附录C.2)。这两种场景都强化了作者的定量发现,即适当的梯度 Stream 使通用方法能够超过专门方法。详细协议见附录B.4。
作者提出了LibraGrad,通过剪枝和缩放反向传播路径来校正梯度流不平衡。在这里正式定义的 FG-完备性确保了属性分解的结果忠实于输入。
作者证明,尽管经典的C自然具有FG-完备性(解释了它们在基于梯度方法的历史成功),但现代Transformers中的几个操作破坏了这一属性。
作者为恢复FG-完备性提供了理论证明,并且不需要修改前向传播。在实践中,LibraGrad在各种架构、模型大小和数据集上普遍增强了基于梯度的属性,使通用方法如FullGrad+能够超越Transformer特定方法。
这表明,当梯度流得到适当平衡时,专门的架构可能不需要专门的属性方法。作者的定性结果进一步验证了这一洞察。未来的工作可以探索与其他基于梯度方法的组合,将其作为梯度 regularizer 的应用,以及将其扩展到新兴的架构创新。
参考文献
[0]. LibraGrad: Balancing Gradient Flow.
本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2025-01-09,如有侵权请联系 cloudcommunity@tencent 删除模型数据函数基础架构#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格
推荐阅读
留言与评论(共有 10 条评论) |
本站网友 万达华府二期 | 12分钟前 发表 |
此外 | |
本站网友 女士奶粉哪个牌子好 | 2分钟前 发表 |
因此局部上是仿射的 | |
本站网友 博爱租房 | 21分钟前 发表 |
但它们在实际中的影响微乎其微 | |
本站网友 偷奶罩 | 14分钟前 发表 |
其中 | |
本站网友 binding | 30分钟前 发表 |
结果显示 LibraGrad 远远超过了 IG | |
本站网友 水的声阻抗 | 8分钟前 发表 |
29 | |
本站网友 急性胃炎 | 2分钟前 发表 |
) Stream | |
本站网友 香港赛马场 | 26分钟前 发表 |
并通过逐元素乘法合并 | |
本站网友 嵌入式论坛 | 27分钟前 发表 |
是 FG-完备的 |