#defense-transfer 主题 - Cyber Security Daily Radar

👥 作者: Hayden Helm, Xiaodong Liu, Weiwei Yang

本文研究生成式大语言模型（LLM）对越狱攻击（jailbreak attack）的易感性预测与缓解问题。直接对所有模型配置进行完整评估和优化在实际中不可行，因为可部署的系统数量庞大。为此，作者提出了一种基于模型群体行为几何（behavioral geometry）的框架，通过利用已评估和防御过的模型，实现对群体内新模型的高效易感性预测以及防御策略的有效迁移。该框架首先计算模型在嵌入空间中的行为表征（如对特定探测输入的响应分布），然后构建行为几何结构，使得相似行为的模型在几何上邻近。在预测任务中，利用已评估模型的行为几何，仅需少量探测样本（比完整评估减少约98%）即可达到 0.94 的 AUPRC（面积精确率-召回率曲线）。在防御迁移方面，行为几何指导选择最优的源模型来迁移防御策略，相比同供应商选择，性能提升 2%（p=0.03），并且仅需三个模型即可覆盖整个群体。实验在涵盖 24 个提供商的 79 个模型以及单个基础模型的 100 种系统配置上进行验证，结果对超参数选择和评判器（judge）具有鲁棒性。该工作为大规模 LLM 安全部署提供了一种实用且高效的评估与缓解方法论。

💡 推荐理由: 提供了一种高效预测 LLM 越狱易感性并迁移防御策略的框架，大幅降低评估成本（减少98%探测），对大规模多模型安全运维场景具有直接实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#defense-transfer

Jailbreak susceptibility prediction and mitigation via the behavioral geometry of models