#gradient

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Haodong Zhao, Tianyi Xu, Tianhang Zhao, Zhuosheng Zhang, Gongshen Liu

该论文提出了一种名为GradSentry的后门样本过滤方法,用于防御大语言模型(LLM)微调过程中的后门攻击。研究背景是:在微调LLM时,使用不可信的数据集可能引入后门攻击,其中被投毒的样本会导致模型在特定触发器下产生恶意行为。现有的样本过滤防御方法通常依赖于聚类技术,但这需要足够的数据量,并且在极端投毒比例下可能失效。GradSentry的核心思想是利用每个样本梯度的谱熵来区分干净样本和投毒样本。关键发现是,与干净样本相比,投毒样本产生的梯度具有更高的谱熵。该方法通过计算每个样本的梯度谱(即梯度的奇异值分布)来捕捉改变模型输出的后门签名,从而避免在特征构建过程中进行样本对比较或聚类。GradSentry是训练无关的:它既适用于参数高效微调方法(如LoRA),也适用于全参数微调,因为梯度分析独立于训练过程中更新的参数。该方法不需要聚类,在所有投毒比例(1%到90%)下均能有效运作,并且计算开销很小(对于7B模型,每个样本仅需20-50毫秒)。在四个问答数据集和四种攻击类型上的评估表明,谱熵对于后门检测是有效的。代码已开源。

💡 推荐理由: 针对LLM微调中的后门攻击,现有聚类方法在高或极低投毒比例下失效,GradSentry利用梯度谱熵提供了一种轻量、高效且无需聚类的替代方案,为LLM安全微调提供了新的防御思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)