推荐 3.5
Conf: 50%
机器生成文本(MGT)检测对于规范在线信息生态系统至关重要,但现有检测器在小样本设置下表现不佳,且容易受到对抗性人性化攻击。本研究从威胁建模角度出发,研究攻击者视角下的检测器漏洞。为此,作者提出REACT(RAG引导攻击者强化对比小样本检测器)框架,这是一种对抗训练框架,能同时提升小样本检测性能和对抗攻击的鲁棒性。REACT将人性化攻击者与目标检测器耦合:攻击者利用检索增强生成(RAG)制作高度类人的对抗样本以逃避检测;检测器则通过对比学习目标从这些对抗样本中学习,稳定小样本表示学习并增强鲁棒性。攻击者和检测器交替更新以实现协同进化。在4个数据集、4种样本大小和3个随机种子的实验表明,REACT相比8个最先进检测器,平均检测F1提升4.95个百分点,并在4种强攻击下平均攻击成功率降低3.66个百分点。
💡 推荐理由: 该研究为安全防御者提供了一种主动对抗策略,通过对抗训练提升检测模型对人性化文本生成攻击的鲁棒性,对反虚假信息、内容审核等场景具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)