当前针对大型语言模型(LLM)的对抗性测试方法存在覆盖不足的问题:人工红队测试难以规模化、LLM作为攻击者的方法容易出现模式崩溃(产生重复或相似攻击)、基于梯度的攻击则生成不可读的乱码。本文提出一种质量多样性(Quality-Diversity, QD)进化框架,在语义层面运作,演化出可解释的攻击策略而非直接操作词元序列。该方法使用MAP-Elites算法,在行为维度(策略类型、编码方法、提示长度)上维护一个多样化的攻击存档。实验覆盖GPT-4o-mini、Claude 3.5 Sonnet、Gemini 2.0 Flash以及一个开源编码模型(Devstral-small-2)。结果发现不同模型具有独特的脆弱性特征:GPT-4o-mini对假设性提示和多重回合框架结合ROT13编码的攻击最为脆弱(适应度0.8);Gemini对直接攻击搭配ROT13以及多重回合加Leetspeak敏感(0.8);而Claude在所有策略下都表现出一致的不确定响应(最大适应度0.4)。语义表示产生的攻击可解释,揭示了系统性的、模型特定的弱点,为改进LLM安全提供了可行见解,并建立了可复现的基线以评估未来前沿模型。代码和实验产物已开源。
💡 推荐理由: 自动化发现不同LLM模型特有的漏洞模式,比人工红队更高效,为安全团队提供可操作的攻击策略库,缩小安全测试覆盖盲区。
🎯 建议动作: 研究跟进