#skill-attack 主题 - Cyber Security Daily Radar

👥 作者: Lijia Lv, Xuehai Tang, Jie Wen, Jizhong Han, Songlin Hu

本文针对智能体（Agent）技能包（Agent Skills）的安全审计问题展开研究。Agent Skills将SKILL.md文件、脚本、参考文档和仓库上下文封装为可重用的能力单元，传统预加载审计仅依赖单提示词过滤，无法应对跨文件安全审查。现有保护措施在语义保持重写下往往能标记风险，但无法一致恢复恶意意图。为此，论文将不可信Agent技能的预加载审计形式化为鲁棒的三分类任务，并提出SkillGuard-Robust框架。该框架结合角色感知证据提取、选择性语义验证和一致性保持裁决三个模块，实现对恶意技能包的精准识别。实验基于SkillGuardBench和两个公共生态扩展数据集，设置五个评估视图（样本量从254到404不等）。在404个包的保留聚合集上，SkillGuard-Robust整体精确匹配率达97.30%，恶意风险召回率98.33%，攻击精确一致性98.89%。在254个包的外部生态视图上，三项指标分别达到99.66%、100.00%和100.00%。结果表明，分片包审计显著提升了冻结模型和公共生态的鲁棒性，但更严苛的外部源迁移仍是一个开放挑战。适合AI安全研究员、Agent系统开发者以及安全审计工具设计者阅读。

💡 推荐理由: Agent技能包可重用性带来安全隐患，现有审计方法鲁棒性不足。SkillGuard-Robust通过多维度特征提取与一致性判决，显著提升恶意检测准确率，为Agent生态安全防护提供新思路。

🎯 建议动作: 研究跟进

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)

#skill-attack

Structured Security Auditing and Robustness Enhancement for Untrusted Agent Skills