👥 作者: Jiamin Chang, Salil Kanhere, Piotr Koniusz, Jason, Xue, Hammond Pearce
本文研究视觉-语言智能体系统(VLAS)中的后门攻击问题。VLAS将视觉感知与规划、工具使用和物理动作相连接,因此后门触发器可以通过决策管线及其连接的接口传播,使视觉后门成为系统级威胁。当前评估仅关注干净准确率和攻击成功率(ASR),这些指标只衡量触发器是否有效,但无法判断攻击是否“精确”——即是否仅在预期条件下触发隐藏行为。本文形式化了触发器不精确的失败为“触发器泄露”:视觉或语义上与预期触发器相近的输入,无意中激活了攻击者指定的行为。为量化泄露,作者提出邻域泄露率(NLR)。实验表明,在3%的投毒比例下,图标和文本触发器对常见视觉变换保持鲁棒,但其邻近变体泄露严重,NLR分别达到0.996(图标)和0.944(文本)。使用文本触发器作为受控探针,结果表明标准微调学习到一个较宽的激活区域而非精确触发条件,导致即使是稍有不同的邻近字符串也会调用恶意行为。通过加入编辑距离为1的硬负样本进行训练,可以显著缩小激活区域并减少泄露,在图像编辑和具身操作工作流中,泄露的触发器可能传播到可执行程序和动作序列。本研究的贡献在于正式定义了触发泄露问题,提出了NLR指标,并展示了通过硬负样本训练来缓解泄露的方法。适合对AI安全、后门攻击防御感兴趣的学术界和工业界研究人员阅读。
💡 推荐理由: 后门攻击在VLAS中的精确性问题常被忽视,本工作揭示了标准评估指标的盲区,并提出NLR新指标,为提升智能体系统安全性提供了新视角。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yuchen Chen, Weisong Sun, Haocheng Huang, Yuan Xiao, Chunrong Fang, Yiran Zhang, Tingting Xu, Zhenpeng Chen, An Guo, Peizhuo Lv, Xiaofang Zhang, Zhenyu Chen, Yang Liu, Baowen Xu
本文针对代码语言模型(CodeLMs)中的自然后门漏洞进行了深入的实证研究。自然后门是指模型在正常训练过程中无意习得的后门行为,与通过数据投毒注入的后门不同,其产生机制与模型内部表征有关。研究覆盖了多种模型架构(如GPT、BERT变体)和代码智能任务(如代码补全、缺陷检测、代码翻译),在44个场景下系统性地评估了自然后门的存在性,结果表明自然后门在CodeLMs中普遍且固有。作者从模型层面和参数层面揭示了自然后门与注入后门的差异:前者往往与更多参数相关且分布更散。进一步分析了自然后门在数据集、模型架构和共享知识上的可迁移性,发现它们能在不同任务间迁移。成因分析从训练数据(如数据中的隐性偏差)和训练过程(如过拟合)两方面展开。评估了现有防御技术(包括预训练、训练中、训练后防御)对自然后门的缓解效果,发现多数防御效果有限。最后提出了ScanNBT检测方法,通过特征分析和异常模式识别来增强对自然后门的检测能力。该研究有助于理解CodeLMs的安全隐患,为开发更安全的代码模型提供指导。适合安全研究人员、AI安全工程师、代码智能开发者阅读。
💡 推荐理由: 自然后门可能潜伏在正常训练的代码模型中,影响代码生成、漏洞检测等关键任务的安全性与可靠性,现有防御手段难以有效清除,对依赖CodeLMs的软件供应链构成潜在威胁。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Bastien Vuillod, Kevin Hector, Pierre-Alain Moellic, Jean-Max Dutertre, Olivier Potin
该论文研究联邦学习(FL)中的模型投毒攻击。传统FL后门攻击主要依赖算法层面操纵训练数据,但本文引入一类新的攻击:利用硬件故障(如Rowhammer)在本地模型参数中注入比特翻转,从而在联邦学习期间植入后门。攻击过程分为离线阶段:攻击者从预训练模型出发,通过分析确定要翻转的比特位;在线阶段:恶意客户端在本地训练时通过硬件故障(比特翻转)修改模型参数,使全局模型在目标任务上保持正常性能,但后门触发时输出攻击者指定的错误结果。实验表明,在ResNet-18等模型上,平均每次恶意客户端出现仅需10次比特翻转,共19次恶意交互即可达到94%的攻击成功率。论文还讨论了攻击的实用性及潜在防御的鲁棒性,并指出Rowhammer是该类威胁的主要攻击向量。该工作揭示了硬件安全与联邦学习安全的交叉风险,对设计防御策略具有指导意义。
💡 推荐理由: 该研究首次将硬件故障攻击(比特翻转)与联邦学习后门攻击结合,拓宽了攻击面,提醒安全从业者关注底层硬件威胁对模型安全的影响。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hongtao Wang, Se Yang, Yu Chen, Puzhuo Liu
本文提出了一种针对大型语言模型(LLM)智能体长期记忆系统的隐蔽后门攻击方法——MemPoison。LLM智能体通过长期记忆支持持续自主的任务执行,但记忆系统的选择性提取和重写机制使得传统记忆投毒攻击难以生效。MemPoison通过对话交互将可触发的后门注入智能体长期记忆,从而误导其后续响应。该方法包含三个关键组件:(1)语义关系桥,将触发词与载荷绑定为连贯语句,确保它们被一同提取至记忆;(2)实体伪装,优化触发词使其模仿命名实体,抵抗记忆重写;(3)联合嵌入优化,将包含触发词的文本在嵌入空间中形成紧密簇,并与良性嵌入保持隔离,实现隐蔽性。实验覆盖不同智能体领域和记忆机制,MemPoison攻击成功率高达0.95,显著优于现有基线。机制分析表明,攻击利用了嵌入空间的各向异性并改变了注意力模式,揭示了选择性记忆系统的核心脆弱性。论文还评估了多种防御策略,证明它们在缓解该攻击方面存在根本性局限。该工作适合AI安全研究员、LLM智能体开发者以及关注对抗机器学习的防御者阅读。
💡 推荐理由: 首次展示攻击者通过自然对话即可在LLM智能体长期记忆中植入隐蔽后门,绕过了现有选择性记忆机制,对依赖记忆的自主智能体构成可信赖性威胁。
🎯 建议动作: 研究跟进,评估现有记忆系统的防御能力,并关注后续防御方案。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Jianwei Li, Jung-Eun Kim
该立场论文指出,AI/ML 社区不应过度使用“正向后门”(positive backdoor)这一标签,而应将触发激活的隐藏行为视为“秘密对齐”(Secret Alignment)。在私有AI时代,开放权重的大语言模型和可获取的训练/推理栈使语言模型成为私有数字资产,带来了未经授权访问、模型窃取和行为滥用的安全风险。最近,一系列被称为“正向后门”的工作被提出以应对这些挑战,其核心思想是在模型中植入隐蔽的触发-行为关联,用于访问控制、所有权归属和安全强制。本文将这些方法统一为秘密对齐的一种形式,并评估了三个代表性应用在六个核心属性(有效性、无害性、持久性、效率、鲁棒性和可靠性)上的表现。结果表明,触发-行为映射在机密性、完整性、可用性(CIA)方面存在显著的脆弱性,远不如现有声称的那样可靠。作者进一步将结果关联到行为密度和决策复杂度,提供了一个行为学视角来理解部署时风险,并呼吁社区采用严格的、标准化的评估来使秘密对齐的主张可证明。
💡 推荐理由: 纠正了对“正向后门”的误用,强调了对模型隐藏行为进行严格评估的必要性,对LLM安全部署和防御有重要指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Khang Tran, Yazan Boshmaf, Issa Khalil, NhatHai Phan, Ting Yu, Md Rizwan Parvez
本文提出一种名为Poison-with-Style (PwS)的实用且隐蔽的模型投毒攻击,针对代码大语言模型(CLLM)。与以往假设攻击者能够在推理时主动将显式触发器(如特定单词)嵌入开发者提示中的攻击不同,PwS利用开发者的代码风格作为隐式触发器,这些触发器自然地蕴含在提示中。PwS引入了一种新颖的数据收集方法和两步训练策略来微调CLLM,使得模型在遇到包含特定代码风格的提示时生成含漏洞的代码,而在其他提示下保持正常行为。在Python代码补全任务上的实验表明,PwS能够抵御最先进的防御措施,并在多种漏洞类型上实现高攻击成功率,同时保持标准代码补全基准(如HumanEval和MBPP)上的良好性能。例如,当使用触发代码风格时,PwS投毒的模型在95%的情况下生成CWE-20漏洞代码,而在HumanEval和MBPP上的pass@1性能下降不到5%。该研究表明,代码风格这种看似无害的特征可被用作隐蔽的后门触发器,对基于CLLM的代码代理构成严重威胁,并凸显了需要更细粒度的防御策略来检测此类隐式触发器的必要性。
💡 推荐理由: 该攻击利用开发者自然的代码风格作为隐蔽触发器,极具实用性和隐蔽性,能绕过现有防御,威胁基于代码大模型的智能代理安全。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zedian Shao, Charles Fleming, Teodora Baluta
大型语言模型(LLM)通常使用未经过滤的文本数据集进行微调,而对手可以污染这些数据集。现有的数据投毒攻击主要依赖于固定的触发短语,这些短语可以被异常检测、干净数据正则化或在线监控等防御手段中和。本文提出了一种新的数据投毒方法,通过共享知识(如事实或概念)与攻击者选择的短语之间的语义关联,使LLM学习一种可靠且隐蔽的信息隐藏方案。这种隐藏方案可以编码和解码任意恶意指令,从而揭示了一种新的、微妙的投毒诱导漏洞:隐蔽控制攻击。作者精确刻画了隐蔽控制攻击的特征,并在5个LLM、3种后门防御和4种提示注入防御上进行了评估。在较小的污染比例下,相比干净的微调模型,隐蔽控制攻击在平均攻击成功率上比基于启发式的提示注入攻击相对提高了约40%。它们还能规避基于检测和微调的防御,在后门防御后保持高达93%的攻击成功率,在提示注入防御后保持高达98%的攻击成功率。这项研究展示了LLM微调过程中一种新型的、难以防御的威胁,对LLM的安全部署提出了严峻挑战。
💡 推荐理由: 该攻击通过语义关联隐藏指令,能绕过现有检测和防御机制,对LLM安全构成新威胁,安全从业者需关注此类隐蔽后门攻击的演变。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Zeyao Liu, Zhendong Zhao, Xiaojun Chen, Xin Zhao, Yuexin Xuan, Xiaoshuang Ji
该论文研究视觉Transformer(ViT)后门攻击的安全风险。现有基于全量微调的后门攻击计算开销大且导致性能下降,因此攻击者转向视觉参数高效微调(PEFT)范式,其中基于适配器(如LoRA)和基于提示(如VPT)的方法占主导。尽管适配器安全性已有初步研究,但基于提示的生态系统风险尚未被充分探索。论文填补了这一空白,揭示了VPT向动态、上下文感知架构演化过程中出现的一种更危险的威胁:即使这些动态模块在良性任务上表现优异,却可能被利用来植入后门。作者提出VIPER攻击框架,其核心是轻量级的动态视觉提示生成器(VPG)。该动态架构能够实现“功能融合”(Functional Fusion)这一新兴现象:恶意逻辑与良性任务功能紧密融合在同一稀疏、高幅值的参数核心中。这造成了一种“人质”困境:若剪除攻击参数,则良性性能必然被破坏。实验表明,VIPER有效解决了攻击者的三难困境:在干净数据上达到最先进性能,在VPG模块剪枝率达90%时仍保持近100%的攻击成功率(而LoRA攻击已崩溃),且推理延迟仅增加0.06毫秒(1.16%)。该工作揭示了动态提示架构中一种范式级的新风险。
💡 推荐理由: 揭示了动态提示架构中一种新型后门攻击,其恶意逻辑与良性功能高度融合,使得传统防御措施(如剪枝)失效,对基于PEFT的ViT系统构成严重威胁。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Daniel Yiming Cao, Chengzhong Wang, Sheng-Yen Chou, Chengyu Huang, Pin-Yu Chen, Shengwei An
该论文首次系统研究了掩码扩散语言模型(MDLM)在训练阶段的后门攻击。MDLM是一种新兴的文本生成范式,其训练时安全性尚未得到充分探索。现有的针对高斯扩散模型或自回归语言模型的后门攻击无法直接应用于MDLM,因为MDLM依赖于离散状态破坏和迭代去噪,而非连续加噪或从左到右预测。为此,作者提出SHADOWMASK后门攻击方法,通过修改MDLM的前向破坏过程,将标准的全掩码终端分布替换为触发词-掩码混合先验分布,从而创建一条从触发词破坏状态到攻击者指定目标的专用去噪路径,同时保持干净的去噪行为。论文给出了后门前向过程的数学定义,推导了反向时间后验,并得到了连续时间训练目标。在基于DiT的MDLM和LLaDA-8B-Instruct模型上,使用WikiText-103、OpenWebText和Alpaca数据集进行评估,结果表明SHADOWMASK实现了接近100%的攻击成功率,显著优于标准数据投毒,且基本保持了干净效用,在全模型微调和参数高效微调下仍有效,并对代表性防御方法具有鲁棒性。
💡 推荐理由: MDLM作为新兴文本生成范式,其安全性尚未被充分研究。本文揭示了MDLM存在训练时后门攻击风险,攻击者可通过修改前向过程植入后门,且攻击成功率高、隐蔽性强。安全社区需关注此类新型攻击路径,并在部署MDLM前进行安全评估。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Tobias Braun, Jonas Henry Grebe, Hossein Shakibania, Anna Rohrbach, Marcus Rohrbach
本文首次研究了统一自回归模型(UAM)中的后门攻击漏洞。UAM是一种Transformer模型,能够在单个自回归过程中同时生成文本和图像token。其共享参数和多模态词汇简化了训练流程并支持灵活的多模态生成,但也引入了新的安全风险。作者提出了Token by Token后门攻击(ToBAC),这是首个针对UAM的后门攻击方法,涵盖基于数据和基于模型的投毒策略。攻击者可以将看似无害的字符或常见单词作为触发器,在图像生成过程中引发恶意行为,同时操纵视觉输出和伴随文本,从而提高虚假内容的可信度。在模型可访问的场景下,攻击者可以对统一Liquid模型进行攻击,使得一个微妙单词(如“cool”)在55%的生成中诱发与模态一致的品牌推广或意识形态影响。在无模型访问时,通过数据投毒即可实现攻击,对JanusPro的平均成功率达63.1%。实验表明,UAM的跨模态参数共享使得后门触发器能够跨模态传播恶意效果,这是一种新型安全威胁。本文的贡献在于揭示UAM特有的安全隐患,并展示了多模态后门攻击的可行性和有效性。
💡 推荐理由: 统一自回归模型是未来多模态AI的重要方向,本文揭示了其特有的后门攻击风险,攻击者可同时篡改文本和图像输出,对内容安全构成严重威胁。
🎯 建议动作: 跟进该研究,评估自身使用的UAM模型是否存在类似后门风险;关注后续防御技术发展。
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Cheng Chu, Qian Lou, Fan Chen, Lei Jiang
该论文提出了一种名为QNBAD(量子噪声诱导后门攻击)的新型攻击方法,针对量子机器学习(QML)中的零噪声外推(ZNE)防御。ZNE是当前量子计算中广泛使用的错误缓解技术,旨在通过外推拟合和处理噪声,提高量子计算的可靠性。QNBAD利用量子噪声的特殊性质——即攻击者通过操控特定量子比特的噪声水平,在神经网络中植入后门模式。这种后门仅在触发噪声模式时激活,导致模型输出预设的错误结果,而正常输入下模型精度几乎不受影响。实验在多个量子神经网络基准测试上进行,结果表明攻击成功率超过90%,同时模型在干净数据上的精度下降不足1%。该方法首次揭示了ZNE防御的脆弱性,表明即使采用先进的错误缓解技术,量子模型仍可能被恶意噪声诱导的后门所破坏。论文还讨论了对抗性噪声的生成策略和攻击的隐蔽性,指出检测此类攻击的难度较高。该研究对量子机器学习的安全性提出了新的挑战,提醒研究者在部署量子模型时需考虑对抗性噪声威胁。
💡 推荐理由: 为首次证明零噪声外推(ZNE)无法抵御恶意注入的量子噪声后门,揭示了量子机器学习中新的攻击面,对量子计算安全研究具有重要警示意义。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Rui Wen, Mark Russinovich, Andrew Paverd, Jun Sakuma, Ahmed Salem
该论文提出了一种新型后门攻击方法 MetaBackdoor,利用 Transformer 架构中位置编码 (Positional Encoding) 的内在特性作为触发器,而不需要修改输入文本内容。现有的后门攻击大多依赖内容触发器(如特定词语、句子),容易被基于文本异常的防御机制检测。作者的核心洞察是:Transformer 模型在处理有序序列时必须编码 token 位置信息,因此输入长度相关的结构会反映在模型内部计算中,可以被用作非内容触发器。论文展示了即使简单的基于长度的位置触发器也能激活隐匿的后门行为。与之前攻击不同,MetaBackdoor 作用于可见且语义正常的输入,使后门 LLM 在满足长度条件时泄露敏感内部信息(如专有系统提示),甚至出现自激活场景——正常的多轮交互可将对话上下文推至触发区,诱导恶意工具调用行为,而无需攻击者提供触发文本。此外,MetaBackdoor 与基于内容的后门正交,可组合使用以创建更精确、更难检测的触发条件。实验证明该方法在多种 LLM 架构上有效。该工作扩展了 LLM 后门的威胁模型,揭示了位置编码这一被忽视的攻击面,对现有侧重文本异常检测的防御策略提出了挑战。
💡 推荐理由: 揭示了 LLM 位置编码可作为新型后门触发器,绕过现有基于文本内容的防御,引发系统提示泄露、恶意工具调用等安全风险,需要安全社区重新评估防御策略。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Zhengchunmin Dai, Jiaxiong Tang, Liantao Wu, Peng Sun, Honglong Chen
该论文提出了一种针对基于大型语言模型(LLM)的智能体的有状态后门攻击方法。现有后门攻击在单个会话内执行固定行为,且攻击状态无法跨会话持久化。作者设计了一种有状态后门,通过持久化组件(如文件系统、数据库等)维护攻击状态,使得在一次触发注入后,攻击能够在多个会话中自主、增量地执行,即使这些会话处于权限隔离环境中。形式上,作者将攻击建模为Mealy机,并推导出分解框架,使得每个状态转换的数据可以独立构建。他们基于此框架实现了一个主要攻击实例和两种扩展变体(不同拓扑结构和持久化组件)。在四个主流LLM模型上的实验表明,主要攻击实例的成功率达到80%–95%,每转换分析验证了分解方法的有效性。扩展变体也展示了一致的效果。该研究揭示了LLM Agent在面对跨会话持久化后门时的脆弱性,对Agent安全防御具有警示意义。适合AI安全研究员、LLM应用开发者阅读。
💡 推荐理由: 该研究揭示了LLM Agent面临的新型持久化后门威胁,突破了传统单会话攻击的局限,对构建鲁棒的Agent安全防护具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Eden Luzon, Guy Amit, Roy Weiss, Torsten Krauß, Alexandra Dmitrienko, Yisroel Mirsky
本论文提出一种针对联邦学习的训练时后门攻击方式,使恶意服务器能够系统性地提取客户端完整训练样本。传统数据提取方法往往只能概率性重建或产生幻觉,无法精确恢复原始数据。该方法通过修改训练过程,在模型中嵌入一个后门触发器,当输入特定索引模式时,模型会直接输出对应训练样本。由于输出尺寸限制,攻击者将样本分割为多个补丁依次提取,并在服务器端重组。攻击仅需对训练代码做微小修改,客户端验证难以察觉,构成联邦学习供应链安全威胁。实验覆盖分类器、分割模型和大语言模型,显示可以数千计地恢复敏感样本,且对主任务性能影响极小(如医学分割数据集仅降低3%准确率)。研究揭示了联邦学习系统中数据隐私的重大漏洞,强调加强分布式训练管道完整性和透明性的必要性。适合联邦学习安全研究员、隐私保护工程师阅读。
💡 推荐理由: 该攻击首次实现联邦学习中精确、高容量的训练数据提取,仅需轻微破坏模型效用,严重威胁隐私敏感的医学等场景。
🎯 建议动作: 研究跟进
排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Linzhi Chen, Yang Sun, Hongru Wei, Yuqi Chen
本文针对低秩适配(LoRA)模型在开源社区(如Hugging Face)中广泛使用所带来的安全挑战展开研究。LoRA作为一种高效的大语言模型微调方法,其适配器文件可被轻易分享和传播,但这也为恶意攻击者提供了植入后门的机会。现有后门攻击方法在LoRA场景下面临三个主要问题:依赖原始训练数据(通常不可获取)、未考虑LoRA特有的结构属性、以及高虚假触发率(False Trigger Rate, FTR)导致隐蔽性差。为此,作者提出了一种因果引导去毒后门攻击框架(CBA),该框架无需访问原始训练数据即可实施攻击。CBA的核心创新包括两点:一是基于覆盖引导的数据生成流水线,通过行为探索合成与任务对齐的输入;二是因果引导的去毒策略,通过保留任务关键神经元来合并中毒适配器和干净适配器。与以往方法不同,CBA允许攻击者在后训练阶段通过因果影响权重分配来控制攻击强度,无需重复训练。在六个LoRA模型上的实验表明,CBA在实现高攻击成功率的同时,将FTR相比基线方法降低了50-70%。此外,该方法对现有先进的后门防御方法表现出增强的抵抗力,凸显了其隐蔽性和鲁棒性。本文的研究揭示了开源LoRA模型生态中存在的严重安全隐患,提醒社区关注此类新型后门攻击的威胁。
💡 推荐理由: 本研究揭示了开源LoRA模型共享生态中一种高隐蔽性、无需原始训练数据的后门攻击方法,对依赖LoRA微调的AI应用构成潜在威胁,值得安全从业者警惕并提前部署检测与防御机制。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha
该论文提出了一种名为 Sparse Backdoor 的供应链攻击,能够在预训练图像分类器(包括卷积网络和视觉Transformer)中植入一个理论上不可检测的后门。攻击方法是在每个全连接层的少量列上沿随机方向注入结构化稀疏扰动,从而将触发信号传播到攻击者选择的目标类别,并通过独立的各向同性高斯抖动掩盖该扰动。抖动的作用是产生一个以预训练权重为锚点的干净参考分布,据此形式化定义不可检测性。在预训练分类器满足温和的边际条件时,论文证明了抖动后的参考模型与原始分类器功能等价。进一步,论文证明区分植入了后门的模型与该参考模型至少与Sparse PCA检测问题一样困难,而后者在标准难度假设下是计算不可行的。该保证适用于任何具有白盒参数访问权限的概率多项式时间区分器。
💡 推荐理由: 该研究揭示了机器学习供应链中一种新型后门攻击,能在参数层面实现理论上的不可检测性,对AI模型的可信部署构成严重威胁。安全从业者需关注此类攻击对模型审计和安全性评估的挑战。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zi Li, Tian Zhou, Wenze Li, Jingyu Hua, Yunlong Mao, Sheng Zhong
本文揭示了一种针对本地大语言模型(LLM)微调过程的供应链攻击新范式。传统观点认为本地离线微调能够保护训练数据中的敏感信息(如API密钥、个人标识符、金融记录等),但本文证明,通过向模型代码中植入伪装成标准架构定义的后门,攻击者即可实现高成功率的秘密窃取。不同于以往被动的预训练权重投毒(主要依赖概率性语义前缀,难以捕获稀疏高熵的目标),本文提出了一种主动执行劫持方法:攻击者将恶意代码伪装为模型架构定义(如PyTorch模块),在微调时触发执行劫持。核心技术包括:1)确定性全链记忆机制,通过在线张量规则匹配锁定动态计算流中的令牌级秘密;2)值-梯度解耦技术,隐蔽地注入攻击梯度,克服梯度淹没问题迫使模型记忆秘密;3)首次实现攻击者可验证的秘密窃取——通过黑盒查询精确区分真实泄露与幻觉。实验表明,该方法在保持主任务性能的前提下,严格攻击成功率(Strict ASR)超过98%,并能有效绕过差分隐私(DP-SGD)、语义审计和代码审计等防御措施。该研究提醒安全社区,模型代码供应链是不可忽视的攻击面。
💡 推荐理由: 挑战了“本地离线微调天然安全”的假设,揭示了模型代码后门可被用于窃取训练数据中的高价值秘密,对使用第三方模型代码或依赖微调服务的企业构成直接威胁。
🎯 建议动作: 审阅内部微调流程中使用的模型代码来源,实施代码审查与完整性验证;评估是否引入额外的运行时监控以检测异常梯度或执行流。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mengnan Zhao, Lihe Zhang, Tianhang Zheng, Bo Wang, Baocai Yin
本文旨在解释快速对抗训练(Fast Adversarial Training, FAT)中出现的灾难性过拟合(Catastrophic Overfitting, CO)现象。FAT能高效提升神经网络对对抗样本的鲁棒性,但容易发生CO,即模型过度拟合训练时使用的特定攻击,导致对其他攻击的泛化能力差。现有方法虽提出了各种缓解策略,但缺乏系统直观的解释。本文创新性地从后门攻击(backdoor)的角度解读CO:通过路径划分、多样特征预测和通用类别可区分触发器的验证,将CO视为不可学习任务(unlearnable tasks)的弱触发器变体,从而统一了CO、后门攻击和不可学习任务的理论框架。基于此,作者提出了多种后门启发的缓解方法:(1)使用微调、线性探测或重新初始化技术重新校准受CO影响的模型参数;(2)引入权重异常值抑制约束,控制模型权重的异常偏差。大量实验支持了对CO的解释,并证明了所提缓解策略的有效性。本文适合机器学习安全、对抗鲁棒性方向的研究人员阅读。
💡 推荐理由: 该研究首次将灾难性过拟合与后门攻击统一在同一个框架下,为理解模型鲁棒性问题提供了新视角,并提出了有效的缓解策略。
🎯 建议动作: 研究跟进
排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)