该论文关注Transformer架构的大型语言模型(如BERT、GPT)在自然语言处理中的广泛应用及其对文本对抗攻击的脆弱性。现有防御方法如对抗训练资源消耗大,而防御性dropout等保护有限。作者提出了一种名为“动态注意力”的新方法,专门针对Transformer架构设计,无需下游任务知识且不增加额外成本。动态注意力包含两个模块:1) 注意力修正:通过掩盖或减弱选定令牌的注意力值;2) 动态建模:动态构建候选令牌集合。大量实验表明,该方法能显著减轻对抗攻击的影响,在常用对抗攻击上比之前的方法性能提升高达33%。动态注意力的模型级设计使其易于与其他防御方法(如对抗训练)结合,进一步提升鲁棒性。此外,与其他动态建模方法相比,动态注意力保留了原始模型的最优鲁棒性空间。
💡 推荐理由: 提供了一种轻量级、无需额外成本的对抗防御方法,可直接嵌入Transformer模型,显著提升鲁棒性,且易于与其他防御技术结合,对保护LLM落地应用有参考价值。
🎯 建议动作: 研究跟进