#jailbreaking 主题 - Cyber Security Daily Radar

👥 作者: Aman Anifer, Vignesh Kumar Kembu, Vishnu M, Antonino Nocera, Vinod P., Amal Murali PK, Akshay S Rajan

大型语言模型（LLM）在AI驱动的信息技术生态中扮演核心角色。为降低有害或违规输出风险，商业系统采用先进的对齐策略和多层内容审核机制。然而，研究表明LLM仍易受对抗性操纵，尤其是越狱和提示注入攻击。本文提出GAS-Leak-LLM，一种基于遗传算法的新型越狱攻击方法，通过系统演化对抗性后缀来绕过安全约束。该方法在严格黑盒设置下运行，无需访问模型参数或内部结构，反映了部署系统中的真实威胁场景。通过迭代应用选择、变异和交叉启发式策略，该方法系统性地探索离散提示空间，识别高适应度的对抗性后缀。实验结果表明现有安全机制存在严重缺陷，并证实了所提攻击的有效性和实际可行性。本文揭示了LLM安全对齐的脆弱性，为防御方理解黑盒越狱攻击原理提供了参考。

💡 推荐理由: 展示了黑盒环境下基于遗传算法的LLM越狱攻击，暴露现有安全机制不足，对AI安全防御具有警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Churui Zeng, Weiwei Qi, Kedong Xiu, Tianhang Zheng, Chaochao Lu, Liang He, Zhan Qin, Kui Ren

随着LLM Agent（智能体）的兴起，它们能够自主规划、编写代码甚至端到端执行专家级的攻击工作流，这带来了新的安全威胁。然而，这种威胁目前尚未被充分研究和重视，原因有二：一是安全对齐机制阻止LLM直接生成有害指令；二是现有的越狱方法大多无法持续诱导Agent执行恶意操作。本文提出了TRACE，一个实用的Agent越狱框架，旨在进一步揭示该威胁面的风险。为了隐藏恶意意图，TRACE将恶意任务分解为多个不同方案下的子任务序列，并选择其中显式有害子任务最少的序列。然后，TRACE通过将剩余的有害子任务嵌入到任务感知的场景中（包含相关角色、环境、指令和启发式规则）来伪装成看似良性的指令。这些场景通过明确定义的转换操作进行迭代演化，这些转换操作由Q-learning启发的机制采样，以诱导Agent执行有害子任务。在AgentHarm和AdvCUA上的广泛评估表明，TRACE在多个先进的LLM Agent上持续优于现有的越狱基线，实现了高达100%的绕过率和0.73的平均成功得分。此外，作者还在受控的网络攻击实例中展示了TRACE的有效性。代码和演示可在GitHub上获取。本文的核心贡献在于系统性地揭示了LLM Agent面临的越狱风险，并提出了一种可复现的评估框架。适合AI安全研究员、红队工程师和LLM应用开发者阅读。

💡 推荐理由: 该研究首次系统性地针对LLM Agent的越狱威胁提出了实用框架，揭示了Agent在自动化攻击任务中的脆弱性，为防御方理解并评估此类风险提供了重要参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#jailbreaking

GAS-Leak-LLM: Genetic Algorithm-Based Suffix Optimization for Black-Box LLM Jailbreaking

TRACE: Task-Aware Adaptive Self-Evolving Agentic Jailbreaking