推荐 1.5
Conf: 50%
本文针对智能体(Agent)技能包(Agent Skills)的安全审计问题展开研究。Agent Skills将SKILL.md文件、脚本、参考文档和仓库上下文封装为可重用的能力单元,传统预加载审计仅依赖单提示词过滤,无法应对跨文件安全审查。现有保护措施在语义保持重写下往往能标记风险,但无法一致恢复恶意意图。为此,论文将不可信Agent技能的预加载审计形式化为鲁棒的三分类任务,并提出SkillGuard-Robust框架。该框架结合角色感知证据提取、选择性语义验证和一致性保持裁决三个模块,实现对恶意技能包的精准识别。实验基于SkillGuardBench和两个公共生态扩展数据集,设置五个评估视图(样本量从254到404不等)。在404个包的保留聚合集上,SkillGuard-Robust整体精确匹配率达97.30%,恶意风险召回率98.33%,攻击精确一致性98.89%。在254个包的外部生态视图上,三项指标分别达到99.66%、100.00%和100.00%。结果表明,分片包审计显著提升了冻结模型和公共生态的鲁棒性,但更严苛的外部源迁移仍是一个开放挑战。适合AI安全研究员、Agent系统开发者以及安全审计工具设计者阅读。
💡 推荐理由: Agent技能包可重用性带来安全隐患,现有审计方法鲁棒性不足。SkillGuard-Robust通过多维度特征提取与一致性判决,显著提升恶意检测准确率,为Agent生态安全防护提供新思路。
🎯 建议动作: 研究跟进
排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)