#jailbreaking

共收录 1 条相关安全情报。

← 返回所有主题
推荐 5.5
Conf: 50%
👥 作者: Churui Zeng, Weiwei Qi, Kedong Xiu, Tianhang Zheng, Chaochao Lu, Liang He, Zhan Qin, Kui Ren

随着LLM Agent(智能体)的兴起,它们能够自主规划、编写代码甚至端到端执行专家级的攻击工作流,这带来了新的安全威胁。然而,这种威胁目前尚未被充分研究和重视,原因有二:一是安全对齐机制阻止LLM直接生成有害指令;二是现有的越狱方法大多无法持续诱导Agent执行恶意操作。本文提出了TRACE,一个实用的Agent越狱框架,旨在进一步揭示该威胁面的风险。为了隐藏恶意意图,TRACE将恶意任务分解为多个不同方案下的子任务序列,并选择其中显式有害子任务最少的序列。然后,TRACE通过将剩余的有害子任务嵌入到任务感知的场景中(包含相关角色、环境、指令和启发式规则)来伪装成看似良性的指令。这些场景通过明确定义的转换操作进行迭代演化,这些转换操作由Q-learning启发的机制采样,以诱导Agent执行有害子任务。在AgentHarm和AdvCUA上的广泛评估表明,TRACE在多个先进的LLM Agent上持续优于现有的越狱基线,实现了高达100%的绕过率和0.73的平均成功得分。此外,作者还在受控的网络攻击实例中展示了TRACE的有效性。代码和演示可在GitHub上获取。本文的核心贡献在于系统性地揭示了LLM Agent面临的越狱风险,并提出了一种可复现的评估框架。适合AI安全研究员、红队工程师和LLM应用开发者阅读。

💡 推荐理由: 该研究首次系统性地针对LLM Agent的越狱威胁提出了实用框架,揭示了Agent在自动化攻击任务中的脆弱性,为防御方理解并评估此类风险提供了重要参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)