#code-agents

共收录 2 条相关安全情报。

👥 作者: Richard J. Young, Gregory D. Moody

本文是一篇系统综述，聚焦于2023年至2025年间公开的13个用于评估大型语言模型（LLM）在恶意代码任务中拒绝能力的提示语料库。这些语料库包括AdvBench、CyberSecEval系列、RMCBench、RedCode、MCGMark、JailbreakBench、CySecBench、MalwareBench、CIRCLE、MOCHA、ASTRA、Scam2Prompt/Innoc2Scam-bench和JAWS-Bench。每个语料库均采用不同协议构建、不同许可条款发布，并依据不同评分者间信度标准进行验证（或未验证）。现有综述通常以代码安全、越狱分类或漏洞检测为核心对象，仅简要提及这些语料库。本文则逆转这一框架，将提示数据集本身作为分析单元。作者遵循PRISMA-style协议，制定搜索策略，筛选编码LLM拒绝评估相关近期文献，对每个符合条件的语料库应用统一提取模板，并从构建方法、提示构建分类法（模态、轮次结构、诱导风格）、可复现性与许可、恶意软件类别覆盖等方面进行综合。综合结果揭示了三个反复出现的方法论缺陷：缺乏人类标注者基线以校准LLM评判标签；缺乏跨语料库可比性，因为拒绝率统计量测量的是不等价的构念；恶意软件类别分类法碎片化，缺少能覆盖全部13个语料库的规范模式。综述最后提出下一代语料库的方法论方向，包括预注册纳入标准、供应商多样化的多评判者验证、以Fleiss' kappa和自助法置信区间作为信度基线，以及一个候选规范分类法。本文适合LLM安全评估、红队测试、以及提示工程领域的研究者阅读。

💡 推荐理由: 本文首次系统梳理了13个恶意代码提示语料库，揭示了评估LLM拒绝能力时的关键方法论缺陷，为构建更可靠、可比较的安全评估基准提供了明确方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zheng Yan, Jingxiang Weng, Charles Chen, Dengyun Peng, Ethan Qin, Jiannan Guan, Jinhao Liu, Qiming Yu, Yixin Yuan, Fanqing Meng, Carl Che, Mengkang Hu

该论文研究了编程代理（coding agents）在执行终端任务时遵循最小权限授权原则的能力。最小权限授权要求代理仅获得完成任务所必需的权限，避免暴露敏感表面。作者首先定义了“权限边界推断”（permission-boundary inference）问题，即给定任务指令和终端环境，模型需要推断出文件级别的读/写/执行策略。为此，他们构建了AuthBench基准，包含120个真实的终端任务，附带人工审核的权限标签和可执行验证器，用于评估实用性和攻击结果。通过测试多个前沿模型，发现授权并非简单的保守与宽松之间的校准问题：模型常常遗漏执行链所需的权限，同时也授予未使用或敏感的权限。增加推理时间并不能解决这种不匹配，反而使每个模型趋向于一个模型特定的“授权吸引子”（authorization attractor），即更多推理使其在自身的失败模式上更加一致，要么过于宽泛而暴露，要么过于严格而脆弱。这表明直接生成策略是瓶颈，因为一次生成必须同时发现所有必要访问并拒绝所有不必要访问。因此，作者提出了“充分性-紧凑性分解”（Sufficiency-Tightness Decomposition）方法：首先生成覆盖导向的策略（通过前向模拟任务），然后审计每个授予的条目，检查其依据和敏感性。在多个模型上，该方法在紧凑性偏好的模型上将敏感任务成功率提升最高达15.8%，同时降低了所有评估模型的攻击成功率。该研究对于安全地部署编程代理具有重要指导意义。

💡 推荐理由: 揭示了当前大模型在自动授权决策上的根本缺陷，并为构建更安全的编程代理提供了可操作的分解方法。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#code-agents

Refusal Evaluation in Coding LLMs and Code Agents: A Systematic Review of Thirteen Malicious-Code Prompt Corpora (2023-2025)

Do Coding Agents Understand Least-Privilege Authorization?