推荐 5.6
Conf: 50%
本文针对基于大型语言模型(LLM)的自主智能体系统(如OpenClaw)中存在的安全漏洞进行了深入研究。现有漏洞分析大多集中在单轮、无状态的行为上,忽略了有状态多轮交互和动态工具调用带来的扩展攻击面。为此,作者提出了一种多维度逃避框架,包含三种新型攻击向量:时间逃避(将恶意负载分散在多个交互轮次中)、空间逃避(将负载隐藏在复杂的工件内以绕过标准LLM解析机制)和语义逃避(在良性上下文噪声中隐藏恶意意图)。为了系统评估这些威胁,作者构建了A3S-Bench基准,包含2,254个真实世界智能体执行轨迹,并将标准智能体框架与10种主流LLM骨干集成,在20种实际威胁场景下进行测试。实验结果表明,该逃避框架将平均风险触发率从28.3%基线上升至52.6%。这些发现揭示了当前自主智能体系统中存在的系统级架构漏洞,而现有防御措施无法有效应对,凸显了针对此类独特威胁定制防御机制的迫切需求。
💡 推荐理由: 该研究首次系统性地提出针对LLM自主智能体的多维度逃避攻击框架,并构建了首个综合基准,揭示了现有防御的严重不足,对蓝队和安全工程师具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)