#defense-transfer

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Hayden Helm, Xiaodong Liu, Weiwei Yang

本文研究生成式大语言模型(LLM)对越狱攻击(jailbreak attack)的易感性预测与缓解问题。直接对所有模型配置进行完整评估和优化在实际中不可行,因为可部署的系统数量庞大。为此,作者提出了一种基于模型群体行为几何(behavioral geometry)的框架,通过利用已评估和防御过的模型,实现对群体内新模型的高效易感性预测以及防御策略的有效迁移。该框架首先计算模型在嵌入空间中的行为表征(如对特定探测输入的响应分布),然后构建行为几何结构,使得相似行为的模型在几何上邻近。在预测任务中,利用已评估模型的行为几何,仅需少量探测样本(比完整评估减少约98%)即可达到 0.94 的 AUPRC(面积精确率-召回率曲线)。在防御迁移方面,行为几何指导选择最优的源模型来迁移防御策略,相比同供应商选择,性能提升 2%(p=0.03),并且仅需三个模型即可覆盖整个群体。实验在涵盖 24 个提供商的 79 个模型以及单个基础模型的 100 种系统配置上进行验证,结果对超参数选择和评判器(judge)具有鲁棒性。该工作为大规模 LLM 安全部署提供了一种实用且高效的评估与缓解方法论。

💡 推荐理由: 提供了一种高效预测 LLM 越狱易感性并迁移防御策略的框架,大幅降低评估成本(减少98%探测),对大规模多模型安全运维场景具有直接实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)