推荐 5.5
Conf: 50%
本文针对大型语言模型(LLM)智能体面临的提示注入攻击,提出了一种增强的多态提示组装(PPA)防御方法。原始的PPA通过从固定池中随机选择分隔符对来隔离用户输入与系统指令,但存在静态池复用导致的“爆炸半径”漏洞:一旦某个分隔符泄露,可在后续请求中被利用。作者提出动态、按请求生成分隔符的方法,利用基于时间戳、会话标识符和加密随机数的域分隔SHA-256摘要,为每个组装提示生成唯一的(BEGIN, END)金丝雀对,从而将泄露暴露限制在单个请求内。在Llama-3.3-70B-Instruct-Turbo模型上针对16种注入载荷进行评估,并在DeepSeek-V4-Flash模型上进行跨模型验证。针对M1混淆载荷(leet speak加紧迫性),动态模式将攻击成功率(ASR)从0.88降至0.38,实现2.3倍的缓解效果,且95% Wilson置信区间无重叠,具有统计显著性。针对format_breakout_salad攻击,静态模式下的分隔符泄露率(0.467)在动态模式下完全消除(0.000),证实了爆炸半径的减小。该实现无需模型微调,每个请求仅增加2.7微秒的提示组装开销,且向后兼容现有PPA SDK。该研究为LLM智能体安全提供了实用、高效的防御增强方案。
💡 推荐理由: 提示注入攻击是LLM应用的核心威胁,本文提出的动态分隔符生成方法在不牺牲性能的前提下显著降低攻击成功率,并消除静态池复用漏洞,对部署LLM智能体的团队具有直接防御价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)