#red-team 主题 - Cyber Security Daily Radar

👥 作者: Zhaojiacheng Zhou

该论文关注LLM agent技能生态系统的安全风险。随着用户从市场、仓库等渠道安装第三方技能，技能既包含可执行代码又包含上下文文档，其部署风险无法通过单次审计或提示级红队评估充分衡量。作者定义了一种名为“自适应泄漏”的风险：攻击者可以利用审计和运行时反馈反复修改技能，直到通过审计并产生实际危害。为此，论文提出了Proteus，一个灰盒自进化红队框架。Proteus形式化了一个五轴技能攻击空间，并通过统一的“审计-沙箱-预言机”流水线评估每个候选攻击，根据审计结果和运行时证据指导跨轮次变异。除了初始绕过，Proteus还实现了路径扩展（寻找成功攻击的替代实现）和表面扩展（将学习到的实现模式迁移到新的攻击目标）。实验在八个阶段一单元上进行，Proteus在5轮内的攻击成功率（ASR@5）达到40-90%，且学习曲线斜率为正。在阶段二，路径/表面扩展产生了438个同时绕过审计并具备危害性的变体，其中SkillVetter在每个单元的被绕过率≥93%，最强的公开审计器AI-Infra-Guard仍允许高达41.3%的联合成功。结果表明，当前技能审查在面对自适应、反馈驱动的攻击者时，严重低估了剩余风险。

💡 推荐理由: 该研究揭示了LLM agent技能市场中的供应链安全漏洞，证明单次审计无法防御攻击者利用反馈进行迭代攻击，对安全社区设计动态审查机制具有警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#red-team

Proteus: A Self-Evolving Red Team for Agent Skill Ecosystems