随着大语言模型(LLMs)在学术同行评审中的广泛应用,其面临一种新型安全威胁:对手可通过在提交稿件中嵌入对抗性隐藏提示(Adversarial Hidden Prompts)来操纵评审结果,严重威胁学术诚信。为应对这一挑战,本文提出名为SafeReview的防御框架。该框架创新性地构建了一个对抗训练系统,包含两个核心模型:生成器(Generator)和防御者(Defender)。生成器负责生成复杂且不断进化的攻击提示,而防御者则负责检测这些攻击。两个模型通过一种受信息检索生成对抗网络(IRGAN)启发的损失函数进行联合优化,形成动态共同进化机制——攻击策略越强,防御能力也随之提升。实验表明,与静态防御方法相比,SafeReview在面对新型和不断演变的攻击时展现出显著增强的韧性。该工作为保护基于LLM的评审系统的完整性奠定了关键基础。论文主要贡献包括:1)揭示LLM评审系统面临的对抗性提示攻击风险;2)提出生成器-防御者协同进化框架,实现动态防御;3)验证该方法对未知攻击的泛化能力。适合关注LLM安全、AI系统鲁棒性及学术评审诚信的研究人员和工程师阅读。
💡 推荐理由: LLM已开始用于学术评审,对抗性隐藏提示可直接操纵评审结果,破坏学术公正。SafeReview提供了首个专门针对该场景的动态防御机制,对维护科研评价体系的可信度具有重要实践价值。
🎯 建议动作: 研究跟进