#gradient 主题 - Cyber Security Daily Radar

👥 作者: Haodong Zhao, Tianyi Xu, Tianhang Zhao, Zhuosheng Zhang, Gongshen Liu

该论文提出了一种名为GradSentry的后门样本过滤方法，用于防御大语言模型（LLM）微调过程中的后门攻击。研究背景是：在微调LLM时，使用不可信的数据集可能引入后门攻击，其中被投毒的样本会导致模型在特定触发器下产生恶意行为。现有的样本过滤防御方法通常依赖于聚类技术，但这需要足够的数据量，并且在极端投毒比例下可能失效。GradSentry的核心思想是利用每个样本梯度的谱熵来区分干净样本和投毒样本。关键发现是，与干净样本相比，投毒样本产生的梯度具有更高的谱熵。该方法通过计算每个样本的梯度谱（即梯度的奇异值分布）来捕捉改变模型输出的后门签名，从而避免在特征构建过程中进行样本对比较或聚类。GradSentry是训练无关的：它既适用于参数高效微调方法（如LoRA），也适用于全参数微调，因为梯度分析独立于训练过程中更新的参数。该方法不需要聚类，在所有投毒比例（1%到90%）下均能有效运作，并且计算开销很小（对于7B模型，每个样本仅需20-50毫秒）。在四个问答数据集和四种攻击类型上的评估表明，谱熵对于后门检测是有效的。代码已开源。

💡 推荐理由: 针对LLM微调中的后门攻击，现有聚类方法在高或极低投毒比例下失效，GradSentry利用梯度谱熵提供了一种轻量、高效且无需聚类的替代方案，为LLM安全微调提供了新的防御思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#gradient

GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning