【论文阅读】identifying backdoor data with optimized scaled prediction consistency

news/2025/2/22 5:33:10

https://zhuanlan.zhihu.com/p/17155805706

后门秘密被揭开:用优化的尺度预测一致性识别后门数据

先前的后门防御策略主要集中在识别带有后门的模型或被污染数据的特征,通常假设能够访问到干净的数据。本文深入探讨了一个相对未被充分研究的挑战:在污染数据集中自动识别后门数据,在现实条件下进行,即无需额外的干净数据,也无需手动定义后门检测的阈值。

我们借鉴了尺度预测一致性(SPC)技术,该技术利用了被污染数据对输入缩放因子的预测不变性。基于此,我们将后门数据识别问题构建为一个分层数据划分优化问题,并以一种新颖的基于SPC的损失函数作为主要的优化目标。

更具挑战性的问题在于直接识别并定位训练集中的后门样本。一旦成功识别这些样本,用户将有更多的自由进行后续处理。特别是一个有趣的问题是,如何在实际条件下解决上述问题,这些条件包括:(P1) 无需干净数据:用户在开始训练之前无法访问额外的干净基础数据集。 (P2) 无需检测阈值:一个识别算法可能会为训练数据样本分配分数,以揭示样本是后门样本的可能性,例如通过平均训练损失来计算(Li等人,2021年)。在这种情况下,用户需要手动设置这些分数的检测阈值,通常是通过启发式方法或基于污染比例的知识(Zeng等人,2022年)。我们认为,在现实场景下,用户不应被要求手动设置这样的阈值。

SPC

scale-up: an efficient black-box input-level backdoor detection via analyzing scaled prediction consistency

(1)在各种适用于后门筛选的签名中,SPC 满足无干净数据的约束(P1);
(2)SPC 计算效率高;
(3)SPC 不依赖于潜在可分离性的假设。
在这里插入图片描述

具体含义就是在不同的输入尺度之下,输出的label是否发生变化(公式里是indicator)。对正常数据来说,模型的预测通常对输入尺度较为敏感,放大或缩小输入可能会改变预测类别。因此,正常数据在 SPC 度量下的一致性分数会较低。后门主要是靠输入中的trigger激活输出,所以后门数据在 SPC 度量下的一致性分数会较高。

SPC局限性

(1)对于 Badnet 攻击(Gu 等,2017),虽然干净样本(或后门样本)的 SPC 损失平均值较低(或较高),但我们观察到干净和后门样本的损失值存在较大方差;
(2)对于 Blended 攻击(Chen 等,2017),损失值分布无法区分;
(3)此外,为了区分干净样本和后门样本,防御者需要对 SPC 值设置一个阈值(因此违反了 P2)。
在这里插入图片描述

由于后门样本具有尺度不变性,其SPC损失值会较高。然而,当后门样本表现出较低的SPC损失时,我们也进行了分析,如图2所示。我们识别出两个原因导致这种异常情况:

  • 当与较大标量值相乘后,像素值被裁剪到[0, 1]的范围内,从而导致触发器消失(图2-CIFAR10的第1、2行和ImageNet的第2行)。
  • 触发器可能与背景融合,在更高的尺度下(图2-ImageNet的第1行)。

在这里插入图片描述
我们已经通过CIFAR-10数据集演示了Blend触发器的有效部分在更高尺度下的消失。如图2-CIFAR10的第2行所示,在×7倍缩放时,触发器几乎消失,这导致后门失效。

见解1:当乘以较大的尺度时,后门样本的像素值可能会消失或与背景融合,从而导致低SPC损失。

与此相反,我们还研究了干净样本具有高SPC损失的情况,这与预期有所偏离。主要原因是
在缩放时,物体的结构保持不变,尤其是低像素值的目标对象,如图2所示。

见解2:干净样本可能会获得高SPC损失值,因为主物体的预测特征即使在较高的尺度下仍然保持完整。

此外,还注意到两个不太常见的情况:由于缩放,图像完全消失,导致干净样本保持一致的类标签,但却产生了高SPC损失(图2-CIFAR10的第4行),以及某些在缩放时产生虚假的相关性,使得图像预测保持不变(图2-CIFAR10的第5行)。揭示了高SPC值可能出现在良性样本中,而并没有系统地检测到虚假的特征。

增强的SPC:掩码感知SPC(MSPC)

基于之前的见解,我们引入了一种新颖的掩码感知SPC(MSPC)损失函数。

所以为了提升SPC的精确度,通过引入掩码m和线性偏移
来改进SPC方法:
掩码:用于聚焦后门样本中的有效部分,以避免触发器在高尺度下消失或与背景融合。
线性偏移:用于略微调整触发器的像素值,以帮助在高尺度下保持触发器。

在这里插入图片描述

线性位移 τ 的作用是轻微地将触发器的直方图向较低像素值方向移动。这有助于在更高尺度上保留触发器。

我们假设掩码 m 编码了后门样本中触发器的“有效部分”。这让人联想到(Huang et al., 2023)的工作,他们提出提取图像的“最小本质”用于预测,即最小掩码,使得模型的预测保持不变。

通过双层优化进行后门识别

看懵了这里

我们提出了一种分层数据分割优化方法,作为本研究的基础元素,提供了一种找到与公式(2)一致的 m 的解决方案,并满足约束条件 P1 和 P2。这种方法使我们能够充分发挥提出的MSPC损失函数的潜力,并借鉴了(Zeng et al., 2022)的灵感。

在这里插入图片描述
在这里插入图片描述


http://www.niftyadmin.cn/n/5861641.html

相关文章

istio介绍补充以及使用篇

istio介绍补充以及使用篇 前言 介绍istio各个组件创建istio的方式手动注入自动注入side car 使用istio做流量灰度如有需要收藏的看官,顺便也用发财的小手点点赞哈,如有错漏,也欢迎各位在评论区评论! 前言 前篇istio介绍了引入ist…

DeepSeek 提示词:定义、作用、分类与设计原则

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

跳跃游戏II(力扣45)

这道题在跳跃游戏(力扣55)-CSDN博客 的基础上需要找到最小的跳跃次数。那么我们需要用一个变量来统计跳跃次数,而难点就在于何时让该变量的值增加。这一点我写在注释中,大家结合我的代码会更好理解。其他部分跟跳跃游戏(力扣55)-CSDN博客 几乎相同&#…

LLM+多智能体协作:基于CrewAI与DeepSeek的邮件自动化实践

文章目录 引言理解 Flows(工作流)与 Crews(协作组)一、环境准备与工具安装1.1 Python环境搭建1.2 创建并激活虚拟环境1.3 安装核心依赖库(crewai、litellm) 二、本地DeepSeek R1大模型部署2.1 Ollama框架安…

【Linux-网络】深入拆解TCP核心机制与UDP的无状态设计

🎬 个人主页:谁在夜里看海. 📖 个人专栏:《C系列》《Linux系列》《算法系列》 ⛰️ 道阻且长,行则将至 目录 📚引言 📚一、UDP协议 📖 1.概述 📖 2.特点 &#x1…

CMU Sphinx、Kaldi 和 Mozilla DeepSpeech 三个开源语音识别引擎的综合比较

CMU Sphinx、Kaldi 和 Mozilla DeepSpeech 三个开源语音识别引擎的综合比较与评估,涵盖技术特点、部署复杂度、适用场景及优缺点分析: 1. CMU Sphinx 技术特点 模型基础:基于传统的隐马尔可夫模型(HMM)和 N-gram 语言…

SpringBoot 中配置 Servlet、Filter、Listener

在SpringBoot应用中,嵌入式的 Servlet 3.0 容器不会直接使用 ServletContainerInitializer 和 WebApplicationInitializer,即通过以上两个接口实现的 Servlet、Filter、Listener 配置都是无效的,这是为了防止第三方代码的设计损坏应用程序&am…

Flutter 中的单例模式

传统: class RouterManager {// 单例模式static final RouterManager _instance RouterManager._internal();factory RouterManager() {return _instance;}RouterManager._internal(); }传递参数进行初始化时: class RouterManager {// 私有静态实例&a…