【论文阅读】identifying backdoor data with optimized scaled prediction consistency

https://zhuanlan.zhihu.com/p/17155805706

后门秘密被揭开：用优化的尺度预测一致性识别后门数据

先前的后门防御策略主要集中在识别带有后门的模型或被污染数据的特征，通常假设能够访问到干净的数据。本文深入探讨了一个相对未被充分研究的挑战：在污染数据集中自动识别后门数据，在现实条件下进行，即无需额外的干净数据，也无需手动定义后门检测的阈值。

我们借鉴了尺度预测一致性（SPC）技术，该技术利用了被污染数据对输入缩放因子的预测不变性。基于此，我们将后门数据识别问题构建为一个分层数据划分优化问题，并以一种新颖的基于SPC的损失函数作为主要的优化目标。

更具挑战性的问题在于直接识别并定位训练集中的后门样本。一旦成功识别这些样本，用户将有更多的自由进行后续处理。特别是一个有趣的问题是，如何在实际条件下解决上述问题，这些条件包括：(P1) 无需干净数据：用户在开始训练之前无法访问额外的干净基础数据集。 (P2) 无需检测阈值：一个识别算法可能会为训练数据样本分配分数，以揭示样本是后门样本的可能性，例如通过平均训练损失来计算（Li等人，2021年）。在这种情况下，用户需要手动设置这些分数的检测阈值，通常是通过启发式方法或基于污染比例的知识（Zeng等人，2022年）。我们认为，在现实场景下，用户不应被要求手动设置这样的阈值。

SPC

scale-up: an efficient black-box input-level backdoor detection via analyzing scaled prediction consistency

（1）在各种适用于后门筛选的签名中，SPC 满足无干净数据的约束（P1）；
（2）SPC 计算效率高；
（3）SPC 不依赖于潜在可分离性的假设。
在这里插入图片描述

具体含义就是在不同的输入尺度之下，输出的label是否发生变化（公式里是indicator）。对正常数据来说，模型的预测通常对输入尺度较为敏感，放大或缩小输入可能会改变预测类别。因此，正常数据在 SPC 度量下的一致性分数会较低。后门主要是靠输入中的trigger激活输出，所以后门数据在 SPC 度量下的一致性分数会较高。

SPC局限性

（1）对于 Badnet 攻击（Gu 等，2017），虽然干净样本（或后门样本）的 SPC 损失平均值较低（或较高），但我们观察到干净和后门样本的损失值存在较大方差；
（2）对于 Blended 攻击（Chen 等，2017），损失值分布无法区分；
（3）此外，为了区分干净样本和后门样本，防御者需要对 SPC 值设置一个阈值（因此违反了 P2）。
在这里插入图片描述

由于后门样本具有尺度不变性，其SPC损失值会较高。然而，当后门样本表现出较低的SPC损失时，我们也进行了分析，如图2所示。我们识别出两个原因导致这种异常情况：

当与较大标量值相乘后，像素值被裁剪到[0, 1]的范围内，从而导致触发器消失（图2-CIFAR10的第1、2行和ImageNet的第2行）。
触发器可能与背景融合，在更高的尺度下（图2-ImageNet的第1行）。

在这里插入图片描述
我们已经通过CIFAR-10数据集演示了Blend触发器的有效部分在更高尺度下的消失。如图2-CIFAR10的第2行所示，在×7倍缩放时，触发器几乎消失，这导致后门失效。

见解1：当乘以较大的尺度时，后门样本的像素值可能会消失或与背景融合，从而导致低SPC损失。

与此相反，我们还研究了干净样本具有高SPC损失的情况，这与预期有所偏离。主要原因是
在缩放时，物体的结构保持不变，尤其是低像素值的目标对象，如图2所示。

见解2：干净样本可能会获得高SPC损失值，因为主物体的预测特征即使在较高的尺度下仍然保持完整。

此外，还注意到两个不太常见的情况：由于缩放，图像完全消失，导致干净样本保持一致的类标签，但却产生了高SPC损失（图2-CIFAR10的第4行），以及某些在缩放时产生虚假的相关性，使得图像预测保持不变（图2-CIFAR10的第5行）。揭示了高SPC值可能出现在良性样本中，而并没有系统地检测到虚假的特征。