#memory 主题 - Cyber Security Daily Radar

👥 作者: Minseok Choi, Seungbin Yang, Dongjin Kim, Subin Kim, Jungmin Son, Yunseung Lee, Jaegul Choo, Youngjun Kwak

本文提出了一种名为Membrane的自我演化防护栏，用于增强大型语言模型（LLM）智能体防御不断演化的越狱攻击。当前的安全对齐方法难以适应新型攻击，而基于微调的安全分类器无法实时更新，基于记忆的防护栏又容易对良性查询过度拒绝。Membrane通过构建对比安全记忆（CSM）来解决该问题：每个记忆单元记录阻止有害查询的条件，同时保留允许与之表面相似的良性查询的条件，从而形成对比对。无需重新训练模型，Membrane在每次有害交互后，将该交互及其良性对照物蒸馏为一个对比单元，并按攻击策略索引，使得同一单元能泛化至该策略下不同主题的变体。推理时，检索到的单元作为安全决策的上下文依据。在模型级安全基准HarmBench和智能体级安全基准AgentHarm上，Membrane在所有六种越狱攻击上取得最高F1分数。尤为重要的是，在AgentHarm上良性拒绝率仅为7-14%，远低于先前方法的28-85%。此外，记忆单元在跨攻击迁移下仍保持87-88%的F1，且对记忆投毒攻击具有稳定性。该方法适合LLM安全研究者、智能体系统开发者及蓝队防御工程师关注。

💡 推荐理由: Membrane提出了一种无需重训练的自适应防护方案，有效平衡了有害拦截与良性放行，特别适合需要动态防御的LLM智能体场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#memory

Membrane: A Self-Evolving Contrastive Safety Memory for LLM Agent Defense