#backdoor-attack

共收录 13 条相关安全情报。

← 返回所有主题
👥 作者: Sanaz Kazemi Abharian, Sai Manoj Pudukotai Dinakarrao

随着集成电路供应链的全球化,硬件安全威胁如硬件特洛伊木马(HT)和知识产权(IP)盗版日益严重。图神经网络(GNN)作为处理图结构数据的强大深度学习方法,已被广泛应用于检测此类威胁。然而,GNN容易受到后门攻击,攻击者可恶意操纵输出预测以满足其目标。现有后门攻击通常使用随机生成子图或梯度引导生成子图作为触发器,但这些触发器在基于GNN的硬件安全应用中不切实际,因为它们无法保证保留电路功能。本文提出GRAFT,一种针对基于GNN的硬件安全系统的基于图元(graphlet)的后门攻击方法。GRAFT在寄存器传输级(RTL)或门级设计中嵌入图元触发器,同时保留电路的原始功能。在ISCAS-85和TrustHub数据集上的实验表明,GRAFT能有效逃避HT检测和IP盗版检测,攻击成功率(ASR)高达100%。该方法揭示了GNN在硬件安全领域的新脆弱性,为防御者提供了研究后门攻击机制的新视角。

💡 推荐理由: 硬件安全系统依赖GNN检测HT和IP盗版,GRAFT攻击能完全规避这些检测,威胁供应链安全。防御者需了解此类攻击原理以设计更鲁棒的模型。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Gorka Abad, Oguzhan Ersoy, Stjepan Picek, Víctor Julio Ramírez-Durán, Aitor Urbieta

本文针对脉冲神经网络(SNN)和神经形态数据集提出了一种后门攻击方法。脉冲神经网络是第三代神经网络,具有低功耗和事件驱动的特点,在神经形态硬件上展现出巨大潜力。然而,其安全性问题尚缺乏系统研究。作者首次探索了SNN在后门攻击下的脆弱性,设计了一种针对SNN的触发器注入机制,该机制利用脉冲序列的时序特性,在训练阶段将恶意触发模式嵌入模型中。攻击者通过控制触发样本使模型在正常输入时表现正常,而在包含触发器的输入上输出攻击者指定的错误标签。实验在多个神经形态数据集(如N-MNIST、CIFAR10-DVS等)上进行,结果表明攻击成功率高达95%以上,同时保持对干净样本的高分类准确率。此外,文章还探讨了不同触发器类型(如高频脉冲模式、空间稀疏模式)对攻击效果的影响。该工作揭示了SNN部署中的潜在安全隐患,为后续防御研究提供了基础。

💡 推荐理由: 脉冲神经网络是下一代低功耗AI计算的核心技术,但安全研究严重滞后。本文首次系统性地展示其后门攻击风险,对神经形态计算的安全部署具有警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Guanhong Tao 0001, Zhenting Wang, Shiwei Feng 0002, Guangyu Shen, Shiqing Ma, Xiangyu Zhang 0001

该论文研究了自监督学习中的后门攻击问题。自监督学习通过大量无标签数据训练特征提取器(编码器),下游任务可在其上构建分类器。然而,攻击者可以通过向无标签训练数据注入后门,使基于后门编码器构建的下游分类器将带有触发器的输入错误分类为目标标签。现有后门攻击存在一个关键缺陷:中毒样本在特征空间中与干净数据显著偏离(即分布外),且中毒样本之间高度集中(高成对相似性),这使得它们易被先进的防御技术检测。为此,论文提出了一种名为Drupe的分布保持后门攻击方法,通过最小化中毒样本与干净数据之间的分布距离,将中毒样本转换为分布内数据;同时将中毒数据分散到目标类别分布的更广区域,以缓解浓度问题。在五个流行数据集上的评估表明,Drupe相比现有攻击显著降低了中毒分布的分布距离和浓度,成功规避了两种最先进的自监督学习后门防御,并且对知情防御者具有鲁棒性。该研究揭示了自监督学习后门攻击的新威胁方向,对安全社区构建更鲁棒的防御方法具有参考价值。

💡 推荐理由: 该攻击突破了自监督学习后门攻击的检测假设,使现有分布防御失效,威胁基础模型下游安全性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: He Wang, Jun Feng, Hong Sun, Pengfei Zhang

本文提出一种名为“主动可用性后门”(Proactive Availability Backdoor, PAB)的新型后门攻击范式,针对大型语言模型(LLM)的安全威胁。与传统的被动后门攻击不同,PAB将攻击向量从被动等待转变为主动社会工程,通过利用对齐后LLM固有的“乐于助人”特性,主动诱导用户执行包含触发器的查询。攻击者预先植入特定触发模式,当用户在接受LLM建议时无意中执行该触发,模型便会输出恶意结果(如拒绝服务、错误信息等),从而实现高攻击性、高精准度和高隐蔽性。为了在真实场景中评估威胁,作者基于五因素模型(神经质、外向性、开放性、宜人性、尽责性)的关键维度,构建了双智能体生态模拟框架,其中一个智能体扮演攻击者,另一个扮演受害者,并采用少量样本提示部署PAB。在多种模型和领域上的实验表明,PAB表现显著,其有效攻击成功率(同时考虑攻击发生率和成功率)高达73.1%。此外,作者还提出了针对PAB的防御方法“Anti-PAB”,通过检测和阻断诱导性查询来缓解威胁。该研究揭示了LLM的“乐于助人”特性可能被武器化以破坏可用性,对LLM用户构成严重隐藏威胁。所有实验脚本和数据集已发布。适合安全研究员、AI伦理研究者和LLM部署方阅读。

💡 推荐理由: 传统后门攻击需等待用户触发,而PAB主动诱导用户执行恶意操作,更隐蔽且更难防御。它揭示了LLM“乐于助人”特性可能被反向利用,为AI安全带来新方向。

🎯 建议动作: 研究跟进:评估自身LLM部署对此类主动诱导后门的脆弱性,并调研Anti-PAB防御方法的适用性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Qiyuan Wang, Yao Li, Raymond K. W. Wong

本文提出了一种密度感知的样本特定后门攻击方法(Density-aware Sample-specific Attack),旨在解决现有后门攻击在训练后防御(如微调、剪枝)下容易被擦除的问题。作者重新审视了后门攻击的核心目标,在受害者训练的贝叶斯最优模型下推导出最优样本特定触发器构建的原则性条件。分析表明,当触发样本被引导到干净数据分布的低密度区域时,攻击成功率和干净准确率保持可以同时优化——这种分布条件同时控制了中毒分布的所有矩,而非仅靠输入空间的少数统计量。为此,作者引入了一个双层优化框架,通过条件时间分数匹配估计密度比,并优化混合模型目标函数以将触发样本放置在这些稀疏区域。在MNIST、CIFAR-10、GTSRB和TinyImageNet上的大量实验表明,该方法在防御前达到99%以上的攻击成功率,在微调防御后攻击成功率比最强基线高出50-85个百分点。针对神经元剪枝防御,该方法表现出完全免疫性,在所有剪枝阈值下均未识别出需要移除的神经元。这些结果揭示了当前防御范式的根本性缺陷,强调了需要开发在干净分布支持之外运作的防御机制。对于防御方而言,该研究警示了基于微调和剪枝的现有后门防御存在盲区,后门攻击可以针对数据分布的低密度区域设计触发器,从而绕过这些防御。建议安全从业者关注分布外检测方法,并探索基于密度估计的防御策略。

💡 推荐理由: 揭示了当前主流后门防御(微调、剪枝)的严重盲区:攻击者可通过将触发器置于数据低密度区域完全免疫此类防御。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Aman Saxena, Jan Schuchardt, Yan Scholten, Stephan Günnemann

本文提出了一种基于差分隐私的原偶视角(primal-dual perspective)来证明机器学习模型对后门攻击的鲁棒性。后门攻击同时污染训练数据和测试数据,使得现有仅针对训练时或推理时单一阶段的随机平滑认证方法失效。作者将随机平滑与差分隐私中的隐私配置文件(privacy profiles)相结合,该配置文件提供了一种数值化方法来组合异构随机机制。由此得到的框架能够对复杂的组合机制进行紧致、模块化的端到端认证,同时可以利用现有差分隐私机制的分析结果。作者将该框架实例化到DP-SGD(差分隐私随机梯度下降)和深度分区聚合(Deep Partition Aggregation)并加入推理时平滑,推导出同时对抗训练时和后门注入、推理时触发器激活的联合鲁棒性保证。在MNIST和CIFAR-10上的实验表明,该方法能够有效认证模型在联合威胁模型下的鲁棒性。本文为使用组合机制认证复杂威胁模型下的鲁棒性提供了一个通用且原则性的框架。

💡 推荐理由: 后门攻击是AI安全的核心威胁,现有认证方法大多只针对单一阶段攻击。本文提出的联合认证框架填补了同时认证训练时和推理时攻击的空白,有助于构建更可信的AI系统。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Kai Wang, Jiale Zhang, Chengcheng Zhu, Chuang Ma, Songze Li

本文研究了在文本到图像扩散模型的多概念后门注入场景中,由于多个后门触发器-目标关联共存导致的语义冲突和不稳定问题。随着开源模型重用和下游微调的普及,同一个预训练模型可能被多个独立方顺序适配和重新分发,导致多个概念特定的后门行为累积。这种累积会放大共享表示空间中的冲突,导致跨概念纠缠和生成质量下降,甚至削弱已有后门的可靠性。为应对这一干扰环境,作者提出了Hydra框架,一种稳健可控的多概念后门注入方法。核心思路是:在优化过程中显式约束触发器语义并协调跨任务交互。具体地,Hydra在文本编码器空间中进行进化触发器搜索,找到与目标概念语义对齐且对其他注入概念保持稳定的触发器;同时结合多任务微调和触发-干净正则化提高密集多概念注入下的训练稳定性。在多种扩散主干网络上的大量实验表明,Hydra在8个攻击者和500个概念对设置下维持了约95%的攻击成功率(ASR)和良好的干净生成保真度。该研究揭示了多概念后门注入的独特挑战,并为理解模型重用生态中的安全风险提供了新视角。

💡 推荐理由: 揭示了多概念后门注入在模型重用场景中的不稳定问题,提醒社区关注累积后门风险的复杂性和防御难度。

🎯 建议动作: 研究跟进:将多概念后门稳定性纳入威胁模型,评估自身模型分发流程中的累积风险。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xiaoyan Ma, Seohyun Lee, Taejoon Kim, Christopher G. Brinton

本文针对空中联邦学习(OTA-FL)系统中的后门攻击漏洞提出了一种两阶段鲁棒聚合防御框架。OTA-FL利用无线信道的叠加特性提升通信效率,但该特性也导致参数服务器无法获取单个客户端的本地更新,从而难以识别和排除被投毒的梯度。此外,在非独立同分布(Non-IID)训练数据下,良性梯度的漂移可能与恶意更新高度相似,进一步加剧了检测难度。为此,作者首先为每个客户端分配一个模态感知的多指标信任分数,根据数据模态(如波形、文本、图像)和模型架构选择最具区分力的指标以捕捉后门更新的特征。基于该分数,参数服务器执行基于信任的多址接入(TBMA),将客户端分为可信、可疑和恶意三类。对于可疑客户端,进一步通过服务器侧的逐层检查和纵向声誉机制进行审查。在多个数据集上的实验表明,该方法能有效抑制多种隐蔽后门攻击(包括有界缩放攻击、欧几里得约束攻击、余弦约束攻击和Neurotoxin),同时保持主任务精度。该研究为OTA-FL的安全部署提供了重要理论支持。

💡 推荐理由: OTA-FL在无线通信中具有高效优势,但后门攻击可导致全局模型被恶意篡改。本文提出的两阶段防御方案针对OTA-FL的独特安全漏洞,具有较强的实用价值,可增强联邦学习在无线场景下的鲁棒性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xiangxiang Chen 0002, Peixin Zhang 0001, Jun Sun 0001, Wenhai Wang, Jingyi Wang 0004

该论文提出了一种名为QuRA的新型后门攻击方法,利用深度学习模型量化过程中的舍入操作来注入恶意行为。与传统的依赖训练数据投毒或模型训练操纵的后门攻击不同,QuRA仅通过量化操作即可实现攻击。具体地,QuRA首先采用一种新颖的权重选择策略,识别对后门目标至关重要的权重(同时保持模型整体性能)。然后,通过优化这些权重的舍入方向,跨模型层放大后门效果,而不会显著降低模型精度。大量实验表明,QuRA在大多数情况下实现了近乎100%的攻击成功率,且性能下降可忽略不计。此外,QuRA能够绕过现有的后门防御措施,突显其威胁潜力。该研究揭示了广泛使用的模型量化过程中的关键漏洞,强调了需要更强大的安全措施。代码已开源。适合深度学习安全研究人员、模型部署工程师阅读。

💡 推荐理由: 首次揭示模型量化过程本身可作为后门注入向量,绕过传统防御,威胁广泛部署的量化模型。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Oubo Ma, Ruixiao Lin, Yang Dai, Jiahao Chen, Chunyi Zhou, Linkang Du, Shouling Ji

该论文系统研究了深度强化学习(DRL)中可塑性干预(plasticity interventions)对后门攻击威胁的影响。可塑性干预是现代DRL智能体的内置组件,用于缓解可塑性损失,但其对后门漏洞的作用尚不明确。作者通过大规模实证研究,分析了14,664个案例,涵盖了多种代表性干预措施和后门攻击场景。结果表明,除了一种干预(即锐度感知最小化SAM)会加剧后门威胁外,其他干预(如L2正则化、Dropout等)均能缓解后门攻击。病理分析揭示了加剧机制源于后门梯度放大,而缓解机制则归因于激活路径破坏和表示空间压缩。基于这些发现,作者提出了两个新见解:一是概念框架SCC(结构性因果关系),用于解构干预与后门之间的机理交互,从而指导鲁棒的后门注入;二是发现异常损失景观锐度可作为DRL后门检测的关键指标。该研究填补了可塑性干预与后门威胁系统性研究的空白,对DRL安全部署具有重要指导意义。适合DRL安全研究者、对抗性机器学习从业者以及AI系统防御工程师阅读。

💡 推荐理由: 该研究揭示了DRL中普遍使用的可塑性干预措施对后门威胁的非预期影响,为安全部署DRL提供了关键机理理解,尤其是发现了异常损失景观锐度可作为后门检测信号,具有实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Dazhuang Liu, Yanqi Qiao, Rui Wang 0070, Kaitai Liang, Georgios Smaragdakis

本文提出了一种名为LADDER的新型多目标黑盒后门攻击方法,针对卷积神经网络(CNN),通过进化算法同时优化多个攻击目标。现有黑盒后门攻击通常将目标视为单目标优化问题,仅在单一域(如空间域)设计触发器,这会导致语义和鲁棒性受损,并引入视觉和频谱异常。LADDER是首个在双域(空间域和频域)中通过进化算法实现多目标黑盒后门攻击的实例,无需预先了解受害者模型。具体地,作者将问题公式化为多目标优化问题(MOP),并采用多目标进化算法(MOEA)求解。MOEA维护一个触发器种群,各触发器在攻击目标间权衡,通过非支配排序驱动触发器向最优解进化。进一步,应用基于偏好的选择来排除不切实际的触发器。LADDER引入双域视角:在频域最小化干净样本与中毒样本之间的异常,以实现触发器隐蔽性;通过将触发器推向低频区域,增强对预处理操作的鲁棒性。在5个公开数据集上的大量实验表明,LADDER攻击有效性至少99%,攻击鲁棒性达90.23%(平均比现有最优攻击高50.09%),自然隐蔽性提升1.12倍至196.74倍,频谱隐蔽性提升8.45倍(以平均L2范数衡量)。该工作揭示了多目标优化在后门攻击中的潜力,对防御者理解新型攻击威胁具有重要意义。

💡 推荐理由: LADDER展示了攻击者可通过进化算法实现多目标后门攻击,同时兼顾高成功率和隐蔽性(视觉和频谱),对现有防御措施构成新挑战,安全团队需关注此类攻击趋势。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Philemon Hailemariam, Birhanu Eshete

机器学习模型在依赖不可信训练数据时面临后门攻击的风险,攻击者通过污染训练数据植入隐藏行为。现有防御方法难以应对日益隐蔽的攻击,尤其是干净标签后门攻击,因为它们无法监控单个训练样本对模型更新的细粒度影响。本文提出PoisonSpot系统,受动态污点跟踪启发,通过细粒度训练来源跟踪精确检测干净标签后门攻击。PoisonSpot在训练过程中捕获并分析每个训练样本对模型参数更新的影响,根据影响谱系为可疑样本分配中毒分数,从而准确识别并拒绝携带后门触发器的样本。该系统在多个基准数据集(如CIFAR-10、GTSRB)和攻击场景(包括不同触发器类型和污染率)下进行评估,与现有最优防御方法相比,PoisonSpot始终实现高真阳性率、低假阳性率,并能有效缓解后门攻击,即使面对自适应对抗策略也表现鲁棒。此外,PoisonSpot在多种训练设置(如从头训练、再训练、微调)中高效运行,展现出良好的可扩展性和实用性。实验结果表明,PoisonSpot在准确性和效率上均优于现有方法,为机器学习供应链安全提供了一种新的、可部署的防御手段。

💡 推荐理由: 干净标签后门攻击难以被现有防御检测,PoisonSpot通过跟踪训练样本对参数更新的影响实现了精准识别,为ML模型的数据安全提供了可落地的防御思路,特别适用于第三方数据或众包场景。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Behrad Tajalli, Stefanos Koffas, Stjepan Picek

机器学习中的后门攻击旨在通过向训练数据中植入恶意样本,使模型在遇到特定触发器时产生攻击者指定的输出。现有研究多聚焦于图像等同质数据,而表格数据因同时包含数值和类别特征,其异构性使得攻击设计更具挑战。本文提出CatBack,一种针对表格数据的通用后门攻击方法。核心创新在于提出一种新的类别特征编码技术:将类别值转换为浮点数表示(而非传统的独热或序数编码),该编码能保留足够信息以保证正常模型的准确率。基于此编码,攻击者可以构建一个基于梯度的通用扰动,该扰动可同时作用于数值和类别特征,形成统一的触发器。在训练阶段,将带有此扰动的样本(后门样本)注入训练集,并标记为攻击目标标签;模型学习后,任何输入若被施加该通用扰动,都会预测为目标标签。作者在5个数据集(涵盖分类与回归任务)和4种流行模型(如决策树、神经网络等)上评估了CatBack,实验显示无论在白盒还是黑盒设置(包括在Google Vertex AI平台上)下,攻击成功率均高达100%。更关键的是,该方法能有效绕过现有多种防御机制,包括Spectral Signatures、Neural Cleanse、Beatrix和Fine-Pruning,以及常见的异常检测方法(如孤立森林)。与已有工作Tabdoor相比,CatBack在攻击成功率、隐蔽性和通用性上均有显著提升。本文揭示了表格数据在机器学习安全中的一个严重脆弱性,表明传统的防御手段在此类新型攻击面前失效,亟需针对异构数据设计更鲁棒的防御方案。

💡 推荐理由: 表格数据在金融风控、医疗诊断、工业检测等关键领域广泛应用,此攻击能绕过现有主流防御,威胁真实ML管线的安全性与可靠性,值得安全从业者高度关注。

🎯 建议动作: 研究跟进,评估自身表格模型对此类攻击的脆弱性,关注未来可能出现的新防御方法。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)