#memory

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Minseok Choi, Seungbin Yang, Dongjin Kim, Subin Kim, Jungmin Son, Yunseung Lee, Jaegul Choo, Youngjun Kwak

本文提出了一种名为Membrane的自我演化防护栏,用于增强大型语言模型(LLM)智能体防御不断演化的越狱攻击。当前的安全对齐方法难以适应新型攻击,而基于微调的安全分类器无法实时更新,基于记忆的防护栏又容易对良性查询过度拒绝。Membrane通过构建对比安全记忆(CSM)来解决该问题:每个记忆单元记录阻止有害查询的条件,同时保留允许与之表面相似的良性查询的条件,从而形成对比对。无需重新训练模型,Membrane在每次有害交互后,将该交互及其良性对照物蒸馏为一个对比单元,并按攻击策略索引,使得同一单元能泛化至该策略下不同主题的变体。推理时,检索到的单元作为安全决策的上下文依据。在模型级安全基准HarmBench和智能体级安全基准AgentHarm上,Membrane在所有六种越狱攻击上取得最高F1分数。尤为重要的是,在AgentHarm上良性拒绝率仅为7-14%,远低于先前方法的28-85%。此外,记忆单元在跨攻击迁移下仍保持87-88%的F1,且对记忆投毒攻击具有稳定性。该方法适合LLM安全研究者、智能体系统开发者及蓝队防御工程师关注。

💡 推荐理由: Membrane提出了一种无需重训练的自适应防护方案,有效平衡了有害拦截与良性放行,特别适合需要动态防御的LLM智能体场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)