#code-agents

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Richard J. Young, Gregory D. Moody

本文是一篇系统综述,聚焦于2023年至2025年间公开的13个用于评估大型语言模型(LLM)在恶意代码任务中拒绝能力的提示语料库。这些语料库包括AdvBench、CyberSecEval系列、RMCBench、RedCode、MCGMark、JailbreakBench、CySecBench、MalwareBench、CIRCLE、MOCHA、ASTRA、Scam2Prompt/Innoc2Scam-bench和JAWS-Bench。每个语料库均采用不同协议构建、不同许可条款发布,并依据不同评分者间信度标准进行验证(或未验证)。现有综述通常以代码安全、越狱分类或漏洞检测为核心对象,仅简要提及这些语料库。本文则逆转这一框架,将提示数据集本身作为分析单元。作者遵循PRISMA-style协议,制定搜索策略,筛选编码LLM拒绝评估相关近期文献,对每个符合条件的语料库应用统一提取模板,并从构建方法、提示构建分类法(模态、轮次结构、诱导风格)、可复现性与许可、恶意软件类别覆盖等方面进行综合。综合结果揭示了三个反复出现的方法论缺陷:缺乏人类标注者基线以校准LLM评判标签;缺乏跨语料库可比性,因为拒绝率统计量测量的是不等价的构念;恶意软件类别分类法碎片化,缺少能覆盖全部13个语料库的规范模式。综述最后提出下一代语料库的方法论方向,包括预注册纳入标准、供应商多样化的多评判者验证、以Fleiss' kappa和自助法置信区间作为信度基线,以及一个候选规范分类法。本文适合LLM安全评估、红队测试、以及提示工程领域的研究者阅读。

💡 推荐理由: 本文首次系统梳理了13个恶意代码提示语料库,揭示了评估LLM拒绝能力时的关键方法论缺陷,为构建更可靠、可比较的安全评估基准提供了明确方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Zheng Yan, Jingxiang Weng, Charles Chen, Dengyun Peng, Ethan Qin, Jiannan Guan, Jinhao Liu, Qiming Yu, Yixin Yuan, Fanqing Meng, Carl Che, Mengkang Hu

该论文研究了编程代理(coding agents)在执行终端任务时遵循最小权限授权原则的能力。最小权限授权要求代理仅获得完成任务所必需的权限,避免暴露敏感表面。作者首先定义了“权限边界推断”(permission-boundary inference)问题,即给定任务指令和终端环境,模型需要推断出文件级别的读/写/执行策略。为此,他们构建了AuthBench基准,包含120个真实的终端任务,附带人工审核的权限标签和可执行验证器,用于评估实用性和攻击结果。通过测试多个前沿模型,发现授权并非简单的保守与宽松之间的校准问题:模型常常遗漏执行链所需的权限,同时也授予未使用或敏感的权限。增加推理时间并不能解决这种不匹配,反而使每个模型趋向于一个模型特定的“授权吸引子”(authorization attractor),即更多推理使其在自身的失败模式上更加一致,要么过于宽泛而暴露,要么过于严格而脆弱。这表明直接生成策略是瓶颈,因为一次生成必须同时发现所有必要访问并拒绝所有不必要访问。因此,作者提出了“充分性-紧凑性分解”(Sufficiency-Tightness Decomposition)方法:首先生成覆盖导向的策略(通过前向模拟任务),然后审计每个授予的条目,检查其依据和敏感性。在多个模型上,该方法在紧凑性偏好的模型上将敏感任务成功率提升最高达15.8%,同时降低了所有评估模型的攻击成功率。该研究对于安全地部署编程代理具有重要指导意义。

💡 推荐理由: 揭示了当前大模型在自动授权决策上的根本缺陷,并为构建更安全的编程代理提供了可操作的分解方法。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)