#detection-allocation

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Shuhao Zhang, Jiarui Li, Qi Cao, Ruiyi Zhang, Pengtao Xie

本文针对提示注入攻击的防御问题,指出现有检测器存在异质性:每个检测器在不同攻击类型上表现各异,没有单一检测器始终可靠。然而,现有系统仍采用固定单检测器流水线,将每个请求都交给同一个检测器处理,从而暴露于其盲区。作者提出将防御重新定义为检测器分配问题:给定一个异构检测器池,针对每个请求决定运行哪些检测器,以及是否升级到LLM法官。为此,他们提出了SCOUT(Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage)框架,通过预测每个检测器在类似历史输入上的样本级可靠性和延迟,实现动态分配决策,并向外暴露一个安全-效用阈值供操作员调节(效用包括良性通过率和墙钟时间)。为了评估该设置,他们构建了SCOUT-450基准,该基准包含了结构复杂、面向代理的注入攻击,这些攻击在旧的提示注入数据集中代表性不足。在SCOUT-450上,与始终启用GPT-4o法官相比,安全导向的工作点将攻击成功率降低46%,总墙钟时间减少40%,而良性效用仅下降5.1个百分点。SCOUT还能迁移到三个外部基准(BIPIA、IPI、IHEval),改进了安全-效用前沿。

💡 推荐理由: 该工作提出了一个新颖的防御范式,通过预测性检测器分配替代固定流水线,显著提升安全性与效率,尤其适用于需要多步骤推理的Agent场景。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)