通过调整深度神经网络的输入梯度提高其对抗性鲁棒性和可解释性

只记录文中有蒸馏用于对抗攻击的防御的部分。

Defenses

作为基线防御，我们考虑防御蒸馏和对抗训练。为了简化比较，我们省略了不完全是架构不可知论或通过检测和拒绝对抗性示例而起作用的防御。

首先将其作为一种潜在的防御措施进行了研究。主要思想是，我们训练模型两次，最初使用一个热点真值标签，但最终使用初始模型的softmax概率输出，其中包含有关问题的附加信息。由于正常的softmax函数趋向于非常快地收敛到一个热态，我们将所有逻辑网络输出除以一个温度集（在训练期间，而不是评估期间）。

其中，我们使用fT,θ表示以具有温度的softmax结尾的网络。注意，T接近∞, 词汇量集中到1/K。整个过程可以表示为：

蒸馏通常用于帮助小型网络达到与大型DNN相同的精度，但在防御性的上下文中，我们两次使用相同的模型。它已被证明能有效防御白盒FGSM攻击，但已证明它对所有类型的攻击都不鲁棒。我们将看到，它防御某些攻击的精确方式与梯度正则化在质量上是不同的，它实际上可以使模型比未防御模型更容易受到攻击。

实验：我们使用T=50的softmax temperature 。

FGSM示例上所有CNN的准确性，用于愚弄MNIST、SVHN和NOTNIST（从上到下）上的未设防模型、防御蒸馏模型、高级训练模型和梯度正则化模型（从左到右）。梯度正则化模型是Tother模型在高下最具抵抗力的对抗性示例，而所有模型都被梯度正则化模型示例愚弄。在NIST和notMNIST上，提取的模型示例通常与非对抗性示例相同（由于梯度下溢），因此它们无法愚弄任何其他模型。

Accuracy Evaluations (FGSM and TGSM)

用防御蒸馏法训练的模型一般不比未防御模型好，也不比未防御模型差。值得注意的是，除了SVHN之外，针对蒸馏模型的攻击实际上无法愚弄所有模型。仔细检查蒸馏模型梯度和示例本身表明，出现这种情况是因为蒸馏的FGSM梯度消失了，所以示例根本不受干扰。当我们从另一个模型中得到一个非零扰动时，蒸馏的鲁棒性也消失了。

CNN accuracy on y+1 TGSM示例生成用于愚弄三个数据集上的四个模型。梯度正则化模型对其他模型的对抗性示例具有鲁棒性。蒸馏模型对抗性扰动愚弄其他模型，因为它们的输入梯度不再下溢。

TGSM Robustness

针对TGSM攻击，防御提取模型梯度不再消失，相应地，这些模型开始显示出与其他模型相同的对抗攻击脆弱性。梯度正则化模型即使在较大的扰动下仍表现出相同的鲁棒性，同样，为愚弄它们而生成的示例也同样愚弄了其他模型。

蒸馏模型（在T=0评估）将极小的概率分配给除predicted class之外的所有类，其TGSM梯度爆炸，而其FGSM梯度消失（我们将最小值设置为10^(−20)以防止下溢）。

更好地理解辐射正则化模型、正态模型和蒸馏模型之间的差异的一种方法是分析它们输出的对数概率及其损失函数输入梯度的范数，其分布上图所示。我们可以看到，不同的防御有非常不同的统计数据。对于梯度正则化模型，非预测类的概率往往很小，但仍然是非零的，而对于评估为T=0的非预测类模型，它们消失了（尽管蒸馏声明了抑制确定性的目的）。可能是因为∇logp(x)=1/p(x)∇p(x)，防御提取模型的非预测对数概率输入梯度在许多数量级上是最大的，而梯度正则化模型保持受控，具有小得多的方差。

对于蒸馏模型（顶部）和梯度正则化模型（底部），对最大失真参数γ=0.25的MNIST 0和1图像应用JSMA的结果。每行中的示例都以高亮显示的数字开始，但会进行修改，直到模型预测对应于其列的数字或出现最大失真为。

Human Subject Study (JSMA and Iterated TGSM)

Need for a Study

报告JSMA的准确度数字可能会产生误导，因为在没有最大距离约束的情况下，它必须运行，直到模型预测目标。即使有了这样的约束，它所产生的扰动有时也会改变示例，使其不再像原来的标签，在某些情况下更像其目标。上图显示了MNIST上的梯度正则化和蒸馏模型的JSMA例子，这些模型试图将0和1转换为其他数字。虽然所有的扰动都“成功”改变了模型的预测，但我们可以看到，在梯度正则化的情况下，许多JSMA例子强烈地重组了它们的目标。

Study Protocol

初步研究包括定量和定性部分。在定量部分，受试者展示了30幅MNIST JSMA或SVHN迭代GSM示例的图像。30幅图像中的每幅对应一个原始数字（从0到9）和一个模型（蒸馏，梯度正则化，或未防御）

Study Results

上表显示了人体实验的定量结果。总体而言，受试者发现梯度正则化模型对抗性示例最具说服力。在SVHN，尤其是MNIST上，人类最有可能认为梯度正则化（而不是蒸馏或正常）对抗性示例最好归类为他们的目标，而不是他们的原始数字。此外，当他们没有考虑目标是最合理的标签时，他们最可能考虑梯度正则模型错误预测“合理”，更可能考虑蒸馏模型错误预测是合理的。对于MNIST和SVHN，正态和梯度正则化不合理错误率之间差异的p值分别为0.07和0.08。

很少有评论员指出正常例子和蒸馏例子之间有任何区别，有几个评论员说“似乎没有明显的区别”，或者他们“无法描述它们之间的区别”。在小组讨论中，一个主题评论了对梯度正则化模型的微扰感觉如何“更有意”，和其他人评论了数字之间的某些转换如何导致非常可信的假货，而其他数字似乎天生就更难。尽管这项研究规模较小，但其定量和定性结果都支持这样的观点，即梯度正则化，至少对于MNIST和SVHN上的两个CNN而言，是对JSMA和ite的可靠防御额定温度为TGSM，蒸馏不适用。

Connections to Interpretability

在下图中，我们可视化了各个模型和数据集的输入梯度，虽然我们无法做出任何定量声明，但梯度正则化模型（对敌对示例而言相对稳健）与正常模型和蒸馏模型之间的输入梯度的可解释性似乎存在质的差异（容易受到影响）。逆向训练的模型似乎表现出更易于解释的梯度，但与梯度正则化模型的程度不同。当我们使用迭代TGSM重复应用基于输入梯度的扰动时（最后的图），模型之间在可解释性方面的差异得到了极大的体现，梯度正则化模型的结果似乎提供了对模型所学内容的洞察。当梯度是可解释的时，我们实际上可以使用对抗性攻击作为解释。