#few-shot 主题 - Cyber Security Daily Radar

👥 作者: Wenjing Duan, Qi Zhou, Yuanfan Li

机器生成文本（MGT）检测对于规范在线信息生态系统至关重要，但现有检测器在小样本设置下表现不佳，且容易受到对抗性人性化攻击。本研究从威胁建模角度出发，研究攻击者视角下的检测器漏洞。为此，作者提出REACT（RAG引导攻击者强化对比小样本检测器）框架，这是一种对抗训练框架，能同时提升小样本检测性能和对抗攻击的鲁棒性。REACT将人性化攻击者与目标检测器耦合：攻击者利用检索增强生成（RAG）制作高度类人的对抗样本以逃避检测；检测器则通过对比学习目标从这些对抗样本中学习，稳定小样本表示学习并增强鲁棒性。攻击者和检测器交替更新以实现协同进化。在4个数据集、4种样本大小和3个随机种子的实验表明，REACT相比8个最先进检测器，平均检测F1提升4.95个百分点，并在4种强攻击下平均攻击成功率降低3.66个百分点。

💡 推荐理由: 该研究为安全防御者提供了一种主动对抗策略，通过对抗训练提升检测模型对人性化文本生成攻击的鲁棒性，对反虚假信息、内容审核等场景具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#few-shot

Fight Poison with Poison: Enhancing Robustness in Few-shot Machine-Generated Text Detection with Adversarial Training