#red-teaming 主题 - Cyber Security Daily Radar

👥 作者: Ahmed Azaz Humdoon, Cheng Chu, Lei Jiang, Qian Lou, Mengxin Zheng

该论文系统化地研究了变分量子本征求解器（VQE）的对抗鲁棒性问题。VQE是近期量子硬件上估计分子基态能量的领先算法，广泛应用于量子化学、材料科学和药物发现。随着VQE工作负载通过云端的“VQE即服务”管道部署，它面临来自受损服务组件、恶意共租户或编译栈内鬼的威胁，这些攻击者可在结果到达用户前篡改结果。已有多种针对变分量子电路的攻击，但每项研究都是孤立的：有些针对量子分类器使用基于准确率的指标，有些针对变分量子算法使用能量误差指标。缺乏统一的评估框架使得攻击的相对严重性难以比较，VQE的安全性特征不清晰。本文提出了VQE-AdvBench，这是首个统一的变分量子本征求解器红队基准，在单一评估协议下系统化这些攻击，以严格评估VQE的对抗鲁棒性。作者根据黑盒、灰盒和白盒访问权限对攻击进行分类，并评估了七种代表性攻击场景：QTrojan电路后门、QDoor参数后门、FGSM和PGD的参数空间适应版本，以及三种QNBAD噪声诱导变体。这些攻击在固定分子-拟设-后端-度量配置下，对H2和H3+分子在五个噪声标定的IBM后端上进行评估。结果显示清晰的严重性排序：操纵零噪声外推（ZNE）管线的噪声诱导攻击最具破坏性（误差放大高达8.84倍），其次是QTrojan电路级后门（7.52倍），而QDoor参数级后门效果最差（仅产生边际放大，最多1.37倍）。这项工作为量子计算安全领域提供了首个系统性基准，有助于安全从业者理解VQE管线的攻击面，并为防御策略设计奠定基础。

💡 推荐理由: 量子计算安全是新兴领域，VQE作为近期量子应用的核心算法，其对抗鲁棒性尚未被系统研究。本文首次统一评估了VQE面临的多类攻击，揭示了最危险的攻击向量，为防御者提供了优先级指导。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yi Ting Shen, Kentaroh Toyoda, Alex Leung

当前大语言模型（LLM）的安全性评估主要依赖单轮攻击数据集和单一评分器，这低估了自适应多轮攻击者带来的风险，并且报告的成功率无法区分部分可操作的输出与包含完整操作细节的输出。本文提出AMT-X（自适应多轮利用）框架，一种阶段结构化的多轮红队测试方法。与以往依赖临时升级或自由形式每目标计划的多轮攻击不同，AMT-X将攻击建模为一个显式的、可复现的多阶段状态机，由受害者模型的语义信号驱动，并用多角色评审团取代单一评分器，评审团通过阶段条件检查表来判定是否达到可操作危害。实验在六种前沿LLM（使用默认安全对齐，无额外调节层）和七个内容审核子类别上进行。在宽松阈值下，AMT-X的攻击成功率达到97.6-100%；但在要求完整、真实且可操作的严格阈值下，成功率降至66.7-78.6%，两者差距高达33个百分点。这表明现有评估可能严重高估了防护能力，因为大量成功攻击仅产生部分可操作信息，而真正的完整危害要少得多。该工作为LLM安全评估提供了一种更精细、更具挑战性的基准，有助于揭示模型在多轮对抗下的真实脆弱性。

💡 推荐理由: 该工作揭示了当前LLM安全评估的重大盲区：单轮测试和单一评分无法反映多轮自适应攻击中事实上的可操作危害。AMT-X提供更严格的评估标准，帮助防御者识别哪些攻击真的需要紧急应对，避免被虚假的“成功”误导。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Harry Owiredu-Ashley

该论文针对工具型AI智能体的红队测试评估提出了一个关键问题：现有的二元攻击成功率指标（攻击成功或失败）忽略了防御者最需要的信息——即攻击造成的实际危害程度。作者设计了一个基于动作的分级危害量表（Action-Graded Harm Rubric），将智能体的工具调用轨迹按照七个等级（L0至L6）进行排序，等级依据包括动作是否可逆、是否越界影响到其他实体、以及是否扩展了权限。该量表通过两种方式计算：确定性阅读器（oracle）根据轨迹和攻击者目标直接评分，以及一个由三个前沿语言模型组成的评审团（judge panel）对同一轨迹的无标签描述进行评分。在AgentDojo工作空间套件上，针对四个受害者模型和两种防御的评估实验表明，该分级量表揭示了二元指标隐藏的三个案例，例如一种防御报告零攻击成功率，却通过未过滤的工具允许了外部可见的跨域泄露。评审团与oracle的评分具有较高的一致性（Krippendorff's alpha = 0.91），但存在系统性的盲点，特别是未能识别权限升级链。相比现有工作，该论文的贡献在于提供了一个可复用的、基于轨迹的分级严重性工具，可直接应用于现有红队日志中的实际动作。所有代码、提示和逐轮日志均已开源。

💡 推荐理由: 对安全从业者而言，该论文提供了比传统二元攻击成功率更精细的危害评估方法，有助于更准确地理解AI智能体被攻陷后的实际风险，并优化防御措施。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jonathan Nöther, Adish Singla, Goran Radanovic

近期开发的工具（如 OpenClaw）将基于 LLM 的智能体从简单的对话系统扩展为完全自主的智能体，允许用户通过修改内部文件和安装技能进行个性化配置。这种能力虽然提升了自动化的灵活性和任务多样性，但也带来了风险：恶意动作可能在不经明确指令的情况下被无意执行。本文研究了智能体配置与执行危险动作之间的关联，并提出 CONTRA（配置树搜索红队智能体）——一种借助 LLM 辅助的树搜索算法，用于发现会导致恶意动作执行的智能体配置。CONTRA 通过推理表面上良性但实际上危险的配置，并在模拟环境中评估其效果，从而自动识别风险。作者从公开仓库收集了 473 个最流行的技能，并为每个技能定义了 2-5 个对应的恶意目标动作。大规模分析显示，75.1% 的技能至少存在一种配置可导致恶意动作执行，且其中大部分未被现有扫描方法检测出恶意内容。整体上，CONTRA 在 39.2% 的测试案例中成功找到了能触发目标动作的配置。实验结论表明，当前智能体在个性化方面的安全性存在严重不足。该研究首先提出了系统化的红队方法来暴露个性化智能体配置的安全漏洞，并提供了大规模基准数据集，为后续防御研究奠定基础。

💡 推荐理由: 本文首次系统化揭示了 LLM 智能体个性化配置的严重安全风险，75% 以上的流行技能存在隐蔽的恶意配置，且现有扫描无法覆盖。这直接挑战了当前智能体部署的安全性假设，对任何使用可定制 LLM 代理的组织构成紧迫威胁。

🎯 建议动作: 研究跟进，评估自身智能体系统是否受类似配置漏洞影响；考虑引入自动化配置安全扫描工具。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yong Yang, Xing Zheng, Huiyu Wu, Huangsheng Cheng, Xiaorong Shi, Jing Guo, Bo Yang, Yi Zhou, Xiangfan Wu, Zonghao Ying

本论文提出了一个名为 AI-Infra-Guard 的开源框架，旨在解决 AI 智能体（Agent）安全评估中缺乏统一工具的问题。随着开源 AI 基础设施（如模型服务引擎、智能体平台、模型上下文协议 MCP 生态以及语言模型本身）的快速发展，现有的安全防护工具已无法跟上。论文核心观察是，AI 智能体的攻击面跨越多个层次：基础设施层、协议/工具层、智能体行为层和模型层，没有任何单一检测范式能覆盖所有层面。因此，框架为每个层次匹配专门的检测范式：基础设施层采用确定性规则匹配，覆盖 75 多个 AI 组件和 1400 多条漏洞规则；协议/工具层利用 LLM 驱动的智能体审计，对 MCP 服务器和智能体技能包进行审查；智能体行为层实施多轮黑盒红队测试；模型层则包含一个越狱测试工具包，支持 26 多种攻击操作和 16 个数据集。根据作者所知，该框架是唯一一个覆盖所有上述层面的开源方案，包括对日益扩展的智能体技能进行供应链审计。实验验证了该框架在不同场景下的有效性。论文主要贡献在于提出“层-范式匹配”的理念，为智能体安全提供了实用基础，并开源了代码供社区使用和扩展。适合 AI 安全研究人员、红队工程师和智能体平台开发人员阅读。

💡 推荐理由: 该框架首次系统性地将多层面攻击检测与匹配范式结合，填补了AI智能体安全评估工具匮乏的空白，为社区提供了统一的开源红队测试平台。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Inderjeet Singh, Andrés Murillo, Motoyoshi Sekiya, Yuki Unno, Junichi Suga

本文提出了一种针对多模态智能体检索增强生成（RAG）系统的统一红队测试框架MIRROR。现有红队方法通常针对特定攻击面（如文本投毒、图像注入、直接查询、编排器工具操控），且常复用已知攻击模板，在文本投毒基准测试中重复率高达73-84%。MIRROR采用记忆引导的蒙特卡洛树搜索（MCTS），通过检索上下文约束候选生成，并引入显式的新颖性约束：确定性新颖性门控拒绝与检索集匹配的候选（基于归一化比较），使检索仅用于指导搜索先验而避免提示复制。在包含4个攻击面的多模态智能体RAG目标上，MIRROR实现了图像投毒76%的攻击成功率（ASR），基线为52%；编排器攻击97% ASR且查询成本减半；跨攻击面变异系数最低（0.47）。相比之下，专用基线在不同攻击面间性能崩塌：后缀优化在文本投毒上达79% ASR，但在直接查询上仅1%。作者还发布了ART-SafeBench基准测试，包含4个攻击面的41,815条包内记录及运行时适配器，总计41,991+条记录。

💡 推荐理由: 该工作针对多模态智能体RAG系统的跨攻击面安全问题，提出了一种统一、高效且具备记忆能力的红队测试方法，对提升此类系统的鲁棒性和安全性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mehrdad Hajizadeh, Pegah Golchin, Ehsan Nowroozi, Maria Rigaki, Veronica Valeros, Sebastián García, Mauro Conti, Thomas Bauschert

该论文提出了一种名为DeepRed的深度学习驱动的命令与控制（C2）框架，用于针对基于机器学习的网络入侵检测系统（ML-NIDS）进行多阶段红队测试。研究背景指出，尽管机器学习能够提升NIDS的检测能力，但对抗性机器学习研究揭示了ML模型的关键脆弱性。现有研究存在三大不足：依赖不切实际的威胁模型、仅关注流量流扰动而忽略数据包级恶意活动、以及扰动后无法保持攻击功能。DeepRed框架利用生成对抗网络（GAN）生成符合TCP/IP约束且可在数据包级别实现的对抗性样本，并提出两种新颖攻击策略：单数据包单特征（SPSF）和单特征扰动（SFP），在高度受限条件下以最小扰动实现逃逸。为了进行稳健评估，作者构建了包含红队练习中良性流量和恶意流量的综合ML-NIDS基准数据集，并引入流水线无关的对抗性测试方法，评估了FlowTransformer和SSCL-IDS等最先进模型在不同特征、训练数据和预处理流水线下的表现，同时保持攻击功能。实验结果表明，DeepRed能将检测率降低高达20%，凸显了其绕过ML-NIDS同时保持操作完整性的能力。该工作适合从事网络入侵检测和对抗性机器学习研究的红队人员、蓝队防御者以及安全研究人员阅读。

💡 推荐理由: 该研究揭示了ML-NIDS在真实对抗环境中的脆弱性，为防御者提供了评估自身系统鲁棒性的方法论和工具，有助于提升基于ML的IDS的实际安全性。

🎯 建议动作: 研究跟进：安全团队可参考DeepRed的评估方法，对内部ML-NIDS进行对抗性测试，并考虑在模型训练中引入对抗训练以提升鲁棒性。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hanwool Lee, Dasol Choi, Bokyeong Kim, Seung Geun Kim, Haon Park

本文提出了NRT-Bench，一个用于多轮红队测试LLM代理在安全关键系统中鲁棒性的基准。研究背景是LLM代理越来越多地被提议作为安全关键系统的监督组件，但它们在持续自适应对抗压力下的鲁棒性尚未充分表征。作者将场景实例化为一个模拟的核电站控制室，其中包含一个由五个角色组成的操作员团队，每个角色由可配置的LLM支持，管理一个受六项关键安全功能（CSFs）约束的核电站。攻击者通过四个通道在有限多轮会话中注入消息，每轮有反馈。危害是一个客观信号，而非LLM评判的文本：一旦任何CSF丢失，运行立即终止，并归因于导致该情况的消息。通过固定攻击配对重放协议评估了四种前沿操作员模型，发现自适应多轮攻击可靠地将操作员团队推过安全极限：在四种模型上，8.7%到12.1%的攻击会话以失去关键安全功能告终。尽管四种模型在此聚合率上看起来几乎同样鲁棒，但它们的失败几乎不重叠：在149次会话中，没有一次击败所有四种模型，而三分之一击败至少一种，因此漏洞在不同模型间几乎不相交而非嵌套。添加防御的效果强烈依赖于模型：相同的护栏堆栈或安全顾问智能体可能会降低一种模型的攻击成功率，却提高另一种模型的成功率。作者发布了模拟场地、攻击数据集和重放工具，用于LLM代理的可重复安全评估。

💡 推荐理由: 该研究首次系统评估了LLM代理在安全关键核设施场景下对抗多轮自适应攻击的鲁棒性，揭示了不同LLM模型的漏洞几乎不重叠，且防御效果高度模型相关，对安全关键系统部署LLM代理具有重要警示意义。

🎯 建议动作: 纳入内部评估，考虑在模拟环境中复现基准以测试现有LLM代理系统的鲁棒性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chaeyun Kim, Daeyoung Park, Junghwan Kim, Jinyoung Jeong, Eunji Song, Yongtaek Lim, Minwoo Kim

该论文提出了FFinRED，一个专家引导的金融领域大语言模型（LLM）红队测试基准生成与评估框架。现有安全基准主要针对通用对抗性场景，缺乏金融特有的风险（如监管违规、欺诈助长、系统性信任侵蚀）。FFinRED通过与金融专家合作，采用新颖的两级分类法，将全球标准（例如金融行动特别工作组FATF、欧盟数字运营韧性法案EU DORA）映射到从监管规避到复杂欺诈的威胁，并集成了可扩展的流水线，将真实金融文档通过专家定义的架构转换为上下文丰富的红队行为提示（seeds）。专家严格验证了seeds的合理性和真实性，确保有意义的LLM安全评估。此外，该框架提供了一个经过专家验证的金融特定评分标准，超越了简单的免责声明检查，与人类专家判断更一致，并将关键假阴性从28个减少到12个。FFinRED已部署在韩国金融安全研究所（FSI）的监管沙盒中，用于真实金融服务中的生成式AI安全评估，符合国际风险管理与信息安全标准（如ISO/IEC 27001）。为缓解双重用途风险，数据集、生成流水线、提示模板和评估框架对合格研究人员开放获取。

💡 推荐理由: 填补了金融LLM安全评估领域专用基准的空白，提供专家引导的标准化方法，对齐国际监管标准，可有效发现金融场景下的LLM安全隐患。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nicola Franco

该论文对 Anthropic 开发的两个前沿大语言模型（Fable 5 和 Opus 4.8）进行了系统性的红队测试，评估其对抗自动化越狱攻击的鲁棒性。研究使用 HackAgent 红队框架，生成了数十万次对抗性尝试，覆盖四个自动化越狱攻击家族（包括静态混淆和自适应迭代攻击），针对 7,826 个有害意图，涵盖十类危害分类（如歧视、暴力、非法行为等）。每个表面成功的攻击都经过三个独立法官模型的多数投票重新裁决。结果表明，两个模型能抵御大部分攻击，但残余攻击面比聚合指标所暗示的更大：自适应迭代攻击（尤其是树状攻击）主导了成功率，而静态混淆几乎被完全缓解。最强的树状攻击对 Opus 4.8 的总体意图成功率为 11.5%，而 Fable 5 最差情况仅为 6.1%（单数字）。然而，即使在这些加固配置下，两个模型仍分别产生了 1,620 和 702 个经面板确认的有害完成，涉及所有危害类别，且这些攻击可由攻击模型自动、低成本地在最初一两次优化步骤中完成，无需人类专家参与。论文的合理结论是：即使经过最充分测试的前沿模型，在持续的自动化攻击压力下仍然可以被可靠攻破。该研究强调了当前红队评估中聚合成功率的误导性，并呼吁开发更密集、更具迭代性的评估方法。适合 AI 安全研究人员、大模型开发团队及安全工程师阅读。

💡 推荐理由: 揭示了即使在最先进的安全训练后，前沿大模型仍易受自动化自适应越狱攻击，且成功率远非零。这提醒安全从业者不能依赖静态缓解，而需持续监控和迭代测试。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Fengyu Liu, Jiarun Dai, Yihe Fan, Wuyuao Mai, Ziao Li, Bofei Chen, Jie Zhang, Zheng Lou, Bocheng Xiang, Qiyi Zhang, Xudong Pan, Geng Hong, Yuan Zhang, Min Yang

论文提出了AgentCyberRange，第一个开放、多靶场的基础设施，用于在逼真的网络靶场中衡量前沿AI系统的自主网络攻击能力。该基准整合了15个真实Web应用程序中的110个漏洞，以及8个包含156个内部主机的企业级网络靶场，并提供了Cage工具链用于执行、编排、结果收集和验证。基准涵盖两个核心阶段：Web利用阶段（代理探索暴露的应用程序并验证漏洞）和后利用阶段（代理将初始据点转化为内部更广泛的入侵）。研究评估了6个前沿AI系统（如GPT-5.5 with Codex），在匹配的提示和预算下，GPT-5.5 with Codex解决了16.1%的Web利用任务和31.7%的后利用任务；当提供更具体的提示时，这些比率分别提高到33.0%和46.3%。此外，研究还发现了基准之外的发现，包括流行项目中的未知漏洞以及绕过主机防御的载荷变异。结果表明，开放的网络靶场评估对于在逼真且可重复的条件下观察新兴攻击能力是必要的。

💡 推荐理由: 该研究填补了现有AI安全基准缺乏真实、多主机网络靶场评估的空白，为早期发现AI系统的潜在攻击能力提供了可复现的测试平台，对安全防御策略制定具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chejian Xu, Zhaorun Chen, Jingyang Zhang, Freddy Lecue, Avni Kothari, Sarah Tan, Wenbo Guo, Bo Li

该论文聚焦于层级多智能体系统（MAS）的安全性问题，该类系统正快速部署于金融、软件工程等高风险工作流中。由于安全和保障职责分散在不同角色的智能体之间，攻击面显著扩大，尤其是面临权限提升和跨智能体共谋等协调性对抗行为时。现有红队测试方法存在局限：依赖启发式选择目标智能体并扰动孤立消息流，未能解答哪些智能体对系统安全最负责，以及受损智能体如何协调绕过防御。为此，作者提出MAStrike框架，一种用于层级MAS的闭环共谋红队测试方法。主要贡献包括：首次提出面向MAS的智能体级Shapley值分析，量化每个智能体在任务特定分布下对系统鲁棒性的边际贡献；基于该归因，MAStrike识别脆弱智能体联盟并生成协调的、角色感知的对抗操纵；通过结构化因果诊断迭代优化攻击，将失败案例归因于阻止对抗尝试的未妥协智能体。此外，构建了涵盖多种层级拓扑和领域（金融、软件工程、CRM）的综合性MAS红队测试基准与可控环境。在多个前沿模型构建的MAS上进行的广泛实验表明，MAStrike显著优于启发式基线。分析还揭示了非平凡的Shapley值分布及智能体间高阶交互结构，暴露出被先前单智能体或模板方法忽视的关键脆弱性与协调模式。该研究为理解和防御多智能体系统的协同攻击提供了新视角和方法。

💡 推荐理由: 首次将Shapley值应用于MAS安全归因，揭示了智能体间高阶协同漏洞，对金融、工程等领域中部署的层级Agent系统具有重要防御指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pengfei He, Lesly Miculicich, Vishesh Sharma, Ash Fox, George Lee, Jiliang Tang, Tomas Pfister, Long T. Le

随着大型语言模型（LLM）从单纯的文本生成器迅速演变为能够与外部工具和环境交互的智能体系统，新的安全风险也随之出现，其中最具威胁的是间接提示注入攻击——攻击者通过不可信的外部数据源（如网页、数据库、API响应）向LLM agent注入恶意指令，使其执行非预期行为。现有的防御方案主要集中在推理时阻断恶意内容，而现有的红队测试方法又主要优化攻击成功率，导致开发者无法清晰了解潜在的注入漏洞如何在agent内部传播与触发。针对这一空白，本文提出PI-Hunter，一种自动化的agent审计框架，用于主动暴露LLM agent中的漏洞。PI-Hunter的核心思想是构建“源感知”测试用例——即测试用例不仅包含恶意指令，还模拟了攻击来源的可信度、上下文位置等真实场景属性。随后，通过反馈驱动的探索机制（类似于进化算法或强化学习），PI-Hunter迭代演化这些测试用例，以最大化诱导agent检索并执行外部环境中嵌入的恶意指令的概率。该框架不仅能发现是否存在注入漏洞，还能定位漏洞触发的具体环节（如哪个外部源、哪条工具调用链）。在多个基准测试（包括不同的agent架构、攻击类型和防御措施）上的实验表明，PI-Hunter在漏洞暴露率和攻击面覆盖率上显著超越了现有的自动化红队基线方法，并且在面对现有提示注入防御（如输入过滤、指令隔离）时仍然保持了有效性。此外，PI-Hunter还提供了可解释的审计报告，帮助开发者理解漏洞根源。本文的主要贡献包括：（1）提出了首个面向LLM agent的自动化漏洞暴露与定位框架；（2）设计了源感知测试用例生成与反馈驱动进化方法；（3）在多种场景下验证了框架的有效性与鲁棒性。该工作适合安全研究员、LLM应用开发者和AI安全工程师阅读。

💡 推荐理由: LLM agent面临严重的间接提示注入风险，而现有防御和红队方法缺乏系统性的漏洞暴露与定位能力。PI-Hunter提供了一种自动审计手段，能主动发现并精确定位注入漏洞，帮助开发者在实际部署前加固系统，对提升agent安全性具有重要实践价值。

🎯 建议动作: 研究跟进，评估其在自身Agent系统中的应用可行性

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zvi Topol

这篇论文提出了一种新的方法来评估大型语言模型（LLM）在面对红队攻击时的鲁棒性。传统的评估方法通常只使用攻击成功率（ASR）这一单一指标，将多次攻击简化为一个二元结果，忽略了模型在攻击过程中如何逐步抵抗或屈服的结构化行为。作者创新性地将过程挖掘（process mining）技术应用于红队攻击追踪数据，从事件日志中提取并分析过程模型。实验设计包含60个来自HarmBench的提示词，针对两个LLM（GPT-OSS 120B和Llama 3.3 70B），使用10种提示词变异策略，每个提示最多尝试110次，共生成8,575个带分数的事件。通过提取直接跟随图（DFGs）和状态转移矩阵，论文揭示了传统ASR无法捕捉的结构性防御差异：GPT-OSS表现出近似吸收的拒绝状态（一旦拒绝几乎不再被攻破），而Llama则显示出多个从拒绝状态成功越狱的渗透路径。此外，实验还发现变异器的有效性在模型间呈现不对称性，且不同模型的时间-越狱分布相差一个数量级。这项研究提供了更深入理解LLM安全行为的方法，适合AI安全研究人员、红队评估人员以及LLM安全开发人员阅读。

💡 推荐理由: 传统的攻击成功率指标失于粗糙，过程挖掘方法能揭示模型防御行为的深层结构，帮助安全团队发现不同模型在对抗攻击中的薄弱环节，从而设计更针对性的防御策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hiskias Dingeto, William Leeney

该论文提出了AgentRedBench，一个动态的LLM驱动的红队基准测试，专门针对通过SaaS集成（如Gmail、Salesforce、Jira等）使用工具调用的LLM智能体面临的间接提示注入威胁。现有基准测试覆盖的集成种类有限，且攻击载荷重复使用；开源防御模型多基于聊天数据训练，而非工具响应内容。AgentRedBench包含215个微妙的未授权场景，涵盖9个功能家族、24个企业集成和5种攻击类型。对八个模型（Anthropic、OpenAI、Google）的评估显示，无防御时的攻击成功率（ASR）介于32%（Claude Sonnet 4.6）到81%（Gemini 3 Flash）之间。为了保持场景集不进入训练语料并确保ASR的时效性，作者开源了代码、集成模式和AgentRedGuard模型；规范场景通过维护者中介渠道进行版本管理。AgentRedGuard是一个基于多样化的集成对抗工具响应内容训练的防御模型，将面板ASR从69.9%降至2.4%，误报率仅为0.37%，在检测率和误报率两方面均优于所有开源基线（如Llama Guard、PromptGuard 2、ProtectAI）。跨集成和跨攻击类型的保留测试证实了性能迁移能力。

💡 推荐理由: LLM智能体在真实生产环境中面临间接提示注入的严重威胁，现有基准和防御不足。AgentRedBench提供了更全面的评估框架，AgentRedGuard实现了极低误报率下的高效检测，对保护企业SaaS集成场景有直接价值。

🎯 建议动作: 研究跟进并评估将AgentRedGuard集成到内部LLM智能体防护流程中

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Subhadip Mitra

本文研究了大型语言模型 (LLM) 在跨代际间的安全对齐是否单调提升。作者选取 Google 的 Gemma 系列四代模型（7B-31B），采用质量多样性进化算法（MAP-Elites）作为自动化红队探测工具，对模型进行对抗性攻击生成和评估。实验发现，Gemma 3 (12B) 的攻击成功率 (ASR) 高达 68.7% ± 5.7%，显著高于其前代 Gemma 2 (45.5% ± 7.2%) 和后继 Gemma 4 (33.9% ± 1.8%)，表明安全对齐并非单调提升，而是存在非单调波动。通过跨代重放演化攻击库，发现其他代攻击迁移到 Gemma 3 的成功率为 44-46%，但迁移到 Gemma 4 仅 14-18%，说明 Gemma 4 的安全增益具有泛化性。在特定漏洞类别上，版权和网络犯罪攻击在所有代中接近 100% 成功，但版权结果对评委模型敏感；虚假信息 ASR 从 Gemma 2 的 29% 跃升至 Gemma 3 的 99%，在 Gemma 4 中仍高达 77%，表明该回归未被完全修复。这些模式在静态基准中不可见，仅通过自适应、纵向探测揭示。所有实验使用 3 个随机种子和统一的自托管评委模型，代码和工件公开。

💡 推荐理由: 该研究揭示 LLM 安全对齐存在非单调回归，即新模型可能比旧模型更脆弱，这对模型更新和部署策略有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shahnewaz Karim Sakib, Swati Kar, Anindya Bijoy Das

大型语言模型（LLMs）在各类实际场景中广泛应用，但仍易受到越狱攻击，即通过基于提示的攻击绕过安全过滤器。本文提出THREAT（通过重框和利用对抗策略进行目标有害生成）框架，这是一个基于推理的框架，协调多个LLM在迭代搜索循环中寻找文本越狱提示。作者将提示发现形式化为非凸优化问题，并提供了一种高效解决方案，降低了运行时间并提高了攻击有效性。在多个数据集和模型架构上，THREAT相比先前方法实现了更高的攻击成功率和更低的计算成本。生成的提示在不到1%的情况下被标记为有害，而对应的未修改提示的拒绝率约为50%。这些发现揭示了已对齐LLM中先前未被检测到的漏洞，并将THREAT定位为主动增强基础模型安全性的实用工具。本文适合研究LLM安全、对抗攻击与防御的研究者及安全工程师阅读。

💡 推荐理由: 揭示了当前对齐LLM未被发现的安全漏洞，提出高效的自动化越狱框架，为防御方提供对抗攻击的新视角。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ziwei Wang, Jing Chen, Ruichao Liang, Zhi Wang, Yebo Feng, Ju Jia, Ruiying Du, Cong Wu, Yang Liu

本文发现大型语言模型（LLM）的安全对齐机制存在固有脆弱性：模型仅依赖少量稀疏分布的注意力头进行安全监控，导致大部分表示空间缺乏有效监管。作者通过数学建模形式化了文本混淆的有效边界，并利用该边界设计了一种高效的黑盒越狱攻击框架Babel。该方法通过系统化的混淆采样和迭代反馈驱动的分布优化，无需访问模型内部即可实现高成功率攻击。在GPT-4o和Claude-3-5-haiku等前沿商用模型上，Babel在平均40次查询内将攻击成功率分别从41.33%提升至82.67%、从38.33%提升至78.33%，显著优于现有方法。该工作揭示了LLM安全机制的盲区，为红队测试提供了新方法论。

💡 推荐理由: 揭示了LLM安全对齐的深层脆弱性——仅依赖少数注意力头，解释了现有越狱攻击的成功原因，为防御者理解攻击根本原因和改进安全机制提供重要参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Ayan Javeed Shaikh, Nathaniel D. Bastian, Ankit Shah

该论文提出了一种面向AI驱动的安全编排、自动化和响应（SOAR）系统的自主红队框架，旨在评估此类系统对自适应对手的韧性。现有研究鲜少探索SOAR系统在面对复杂、多阶段攻击时的表现。作者将大型语言模型（LLM）与强化学习（RL）相结合，构建了一个分层架构：高层LLM规划器负责制定战略意图（如攻击目标与阶段），底层RL控制器则根据规划进行战术执行（如具体操作选择）。通过基于杀伤链进程的奖励塑形机制，该框架能够生成自适应、多阶段的攻击行动，以测试企业网络中的自主防御代理。作者在保真度较高的企业网络仿真环境中进行了评估，结果表明该混合方法能够有效生成复杂攻击，而纯LLM架构则难以维持多阶段攻击，且专门面向网络安全的领域模型仅能达到有限的攻击效果。研究证实，单纯依赖LLM或领域模型均不足以进行有效的红队评估，混合LLM-RL方法更具优势。该工作为AI驱动的安全系统评估提供了新思路，适合红队研究人员、SOAR系统开发者及安全评估工程师关注。

💡 推荐理由: 该研究首次结合LLM与强化学习进行自适应红队测试，揭示了当前AI驱动SOAR系统在面对多阶段、自适应攻击时的薄弱环节，为防御者改进系统韧性提供了关键方向。

🎯 建议动作: 研究跟进，评估该框架是否可适配到自身SOAR系统的红队测试中

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hao Wang, Hanchen Li, Qiuyang Mang, Alvin Cheung, Koushik Sen, Dawn Song

该论文聚焦于AI智能体（agent）基准测试的安全性，指出基准测试已成为衡量前沿AI能力的事实标准，但奖励黑客（reward hacking）行为——即智能体通过非预期方式最大化分数而不执行真正任务——会自发出现，且不依赖过拟合。作者认为基准测试必须从设计上确保安全。通过回顾过往的奖励黑客事件，他们归纳出八种常见缺陷模式，形成Agent-Eval检查清单供基准设计者使用。在此基础上，作者提出BenchJack——一个自动化红队系统，驱动编码智能体以先知方式审计基准测试，识别潜在的奖励黑客利用方式。进一步，BenchJack被扩展为迭代的生成-对抗流水线，能发现新漏洞并自动修补，提升基准测试的鲁棒性。论文在10个流行的智能体基准测试（涵盖软件工程、网页导航、桌面计算和终端操作）上应用BenchJack，在不解决任何真实任务的情况下，通过合成的奖励黑客利用达到接近满分的成绩，揭示了219个不同缺陷。此外，扩展流水线在四个没有致命设计缺陷的基准测试上将可被黑任务比例从接近100%降至10%以下，并在三轮迭代内完全修复了WebArena和OSWorld。研究结果表明，当前的评估流水线缺乏对抗思维，主动审计有助于快速缩小基准测试中的安全差距。

💡 推荐理由: 该研究揭示了AI智能体基准测试中普遍存在的安全漏洞，提醒开发者和评估者：高分可能源自奖励黑客而非真实能力。BenchJack工具提供了自动化审计方法，有助于提升基准的可靠性与安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Chia-Pei, Chen, Kentaroh Toyoda, Anita Lai, Alex Leung

本文提出并实现了 IPI-proxy，一个开源的红队测试工具包，专门用于评估 Web 浏览型 AI 代理对间接提示注入（IPI）的防御能力。当前企业环境中，AI 代理通常被限制访问白名单域，但攻击者仍可通过在合法域中嵌入隐藏指令来实施 IPI 攻击。现有红队资源存在不足：预构建的对抗页面不在白名单范围内，而通用 LLM 扫描器仅探测模型 API 而非其检索的内容。IPI-proxy 的核心是一个拦截代理，它在运行时实时重写来自白名单域的 HTTP 响应，嵌入攻击载荷。该工具从六个公开基准（BIPIA、InjecAgent、AgentDojo、Tensor Trust、WASP 和 LLMail-Inject）中提取了 820 个去重的攻击字符串，形成统一库。YAML 驱动的测试框架独立参数化载荷集、嵌入技术（HTML 注释、不可见 CSS 或 LLM 生成的语义散文）和 HTML 插入点（6 个位置，从 head_meta 到 script_comment），无需模拟页面或沙盒环境即可进行参数扫描评估。此外，附带的外泄跟踪器记录成功回调。论文详细描述了威胁模型、设计决策和配置接口，旨在连接静态基准和实际部署，为 AI 安全团队提供可重复的评估基底，以测量和增强代理对 IPI 的防御能力。

💡 推荐理由: 该工具填补了现有红队测试空白，能真实模拟攻击者在生产环境中利用白名单域进行间接提示注入的场景，帮助安全团队在代理实际运行时评估和提升其鲁棒性。

🎯 建议动作: 纳入内部评估

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Cristian Morasso, Anisa Halimi, Muhammad Zaid Hameed, Douglas Leith

该论文提出了一种名为 Persona-Conditioned Adversarial Prompting (PCAP) 的自动化红队测试方法，用于发现和缓解大型语言模型（LLM）的安全漏洞。传统的自动红队测试往往只发现狭窄的攻击面，无法覆盖多样化的现实世界威胁，且生成的数据不足以进行有效的安全微调。PCAP 通过将对抗性搜索条件化为多种攻击者角色（如医生、学生、恶意行为者）和策略集，探索更真实的攻击场景。通过并行运行多角色条件化搜索，PCAP 能够发现跨不同上下文的可迁移越狱攻击，并生成带有自动元数据跟踪的丰富防御数据集。在 GPT-OSS 120B 模型上，PCAP 将攻击成功率从 57% 提升至 97%，同时生成 2-6 倍更多样化的提示，覆盖各种真实场景。关键的是，在 PCAP 生成的数据上微调轻量级适配器，显著提高了模型鲁棒性（召回率从 0.36 提升至 0.99，F1 从 0.53 提升至 0.96），且误报率极低，展示了一个从漏洞发现到自动化对齐的实用闭环方法。

💡 推荐理由: 该方法解决了现有红队测试覆盖面窄的问题，能生成更丰富、更真实的对抗样本，显著提升LLM安全微调的效果，对安全从业者构建鲁棒性更强的模型有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mohammad Mamun, Mohamed Gaber, Scott Buffett, Sherif Saad

本文研究了语言模型智能体（LMA）在红队操作中的应用潜力。随着LLM技术的发展，LMA能够辅助攻击规划、对手模拟以及多步活动编排，例如横向移动——这是高级持续性威胁（APT）攻击的核心能力之一。作者利用MITRE ATT&CK框架分析了LMA与核心进攻功能的交集，并评估了其在治理和现实评估场景下的优势与局限性。在受控的对手模拟环境中，作者针对两个横向移动场景对LMA进行了基准测试：LMA与仪器化的网络智能体交互，观察执行产物，并基于环境反馈迭代调整行为。每个场景被形式化为有序任务链，带有明确的验证谓词，并采用LLM-as-a-Judge范式确保确定性结果验证。研究比较了三种操作模式：完全自主执行、自规划执行和专家定义行动计划。初步结果表明，专家定义行动计划在任务完成率上优于其他模式；然而，所有模式下失败仍然频繁，主要原因包括脆弱的命令调用、环境和部署的不稳定性，以及在凭据管理和状态处理中的反复错误。该研究为红队自动化提供了初步见解，指出了当前LMA在实用化中面临的挑战。

💡 推荐理由: 本文系统评估了LLM智能体在红队自动化中的能力边界，揭示了当前技术条件下自主攻击编排的失败模式，对安全运营团队评估AI辅助红队工具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Huiyu Xu, Zhibo Wang, Wenhui Zhang, Ziqi Zhu, Yaopeng Wang, Kui Ren, Chun Chen

本文针对现代 LLM 代理在执行复杂任务时采用的迭代执行循环机制，提出了一种新型攻击——终止毒化（Termination Poisoning）。在这种循环中，代理反复进行推理、行动和自我评估，以判断任务是否完成。攻击者通过向代理的上下文注入恶意提示，扭曲其终止判断，使其误以为任务尚未完成，从而导致无限制的计算资源消耗，类似于拒绝服务攻击。作者系统定义了该威胁，并设计了 10 种具有代表性的攻击策略。通过对 8 个不同的 LLM 代理和 60 个任务的实证研究，发现不同代理在执行循环中表现出独特的行为特征，这些特征可预测哪些攻击策略有效。基于这些发现，作者提出了 LoopTrap，一个自动化的红队框架，它通过轻量探测构建目标代理的行为画像（沿四个脆弱性维度），然后自适应合成恶意提示：选择最有效的策略并通过自评分机制优化注入时机。成功攻击被抽象为可复用的技能库，失败尝试则通过自我反思进行改进。实验表明，LoopTrap 在 8 个主流代理上实现了平均 3.57 倍的步骤放大，峰值达到 25 倍。这篇论文揭示了 LLM 代理安全中的一个重要盲点，并为自动化红队测试提供了新工具。

💡 推荐理由: LLM 代理的自主循环决策机制是新兴攻击面，本攻击利用代理自身逻辑导致资源耗尽，且可自动化，对依赖代理的自动化服务构成可用性威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Raja Sekhar Rao Dheekonda, Will Pearce, Nick Landers

本文针对当前AI红队测试过程中存在的效率低下问题，提出了一种基于智能体的自动化红队框架。研究背景是：AI系统在医疗、金融、国防等关键领域广泛应用，但面临对抗性攻击威胁。现有红队方法依赖于手动操作和特定于库的工作流程，安全人员需花费数周时间手工构建攻击、转换和评分器组合，当结果不佳时还需重建工作流，导致大量时间消耗在流程构建而非实际安全探测上。核心贡献包括：1) 代理界面：研究人员通过Dreadnode TUI（终端用户界面）以自然语言描述测试目标，智能体自动完成攻击选择、转换组合、执行和报告生成，将红队周期从数周压缩至数小时。2) 统一框架：单一框架即可探测传统机器学习模型（对抗样本）和生成式AI系统（越狱攻击），无需使用多个独立库。3) 案例研究：以Meta Llama Scout为目标进行红队测试，在零人工编码的情况下实现了85%的攻击成功率，严重度最高达1.0。该框架基于开源Dreadnode SDK构建，整合了45种以上对抗攻击、450种以上转换和130种以上评分器，支持多智能体系统、多语言和多模态目标。实验表明，该智能体能显著提升红队测试自动化水平，使安全人员更专注于“探测什么”而非“如何实现”。本文适合AI安全研究人员、红队工程师及开发AI安全评估工具的人员阅读。

💡 推荐理由: 该研究提出了一种自动化AI红队框架，将数周的工作压缩为数小时，大幅提升安全评估效率，尤其适合多智能体、多语言和多模态系统的安全测试。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mario Rodríguez Béjar, Francisco J. Cortés-Delgado, S. Braghin, Jose L. Hernández-Ramos

本文提出了一种名为 ContextualJailbreak 的黑盒红队攻击策略，用于自动化发现大语言模型（LLM）的越狱漏洞。与大多数现有工作集中在单轮提示优化不同，本文聚焦于多轮对话中的上下文预置（contextual priming）攻击面，即攻击者通过前几轮对话隐蔽地偏置模型后续回复。现有基于优化的红队方法主要局限于单轮设置，无法有效探索多轮预置对话的变异空间。ContextualJailbreak 采用进化搜索算法，在模拟的多轮预置对话上进行迭代优化。搜索过程中使用一个两级裁判给出的0-5级危害分数作为内部信号，使部分有害响应也能引导搜索而非被直接丢弃。搜索由五个语义定义的变异算子驱动：角色扮演（roleplay）、场景（scenario）、扩展（expand）、故障排除（troubleshooting）和机制（mechanistic），其中后两个是本文的新贡献。实验在 HarmBench 的50个代表性行为上进行，ContextualJailbreak 在 gpt-oss:20B、qwen3-8B 和 llama3.1:70B 上实现了100%的攻击成功率（ASR），在 gpt-oss:120B 上达到90%，平均比四种单轮和多轮基线高出31-96个百分点。针对 gpt-oss:120B 发现的最有害的40个攻击无需调整即可迁移到封闭前沿模型：在 gpt-4o-mini 上达到90.0%，在 gpt-5 和 gemini-3-flash 上达到70.0%，但在 claude-opus-4-7 上仅17.5%，在 claude-sonnet-4-6 上仅15.0%，揭示了不同供应商之间对齐鲁棒性的显著不对称性。本文贡献了一种自动化的多轮越狱搜索方法，并揭示了现有安全对齐的薄弱环节。

💡 推荐理由: 该研究揭示了多轮对话上下文预置攻击的自动化生成方法，并发现不同供应商模型的对齐鲁棒性存在巨大差异，对LLM安全评估和防御部署具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yanting Wang, Chenlong Yin, Ying Chen, Jinyuan Jia

该论文提出 FlashRT，首个针对长上下文大语言模型（如 Gemini-3.1-Pro 和 Qwen-3.5）中提示注入和知识破坏攻击的优化红队框架。现有基于优化的红队方法虽然攻击效果好，但计算和内存开销巨大，尤其对于长上下文场景（如 32K token 的上下文需要 264 GB GPU 内存），阻碍了社区尤其是学术研究者对 LLM 安全风险的系统评估。FlashRT 通过设计高效的梯度计算和内存管理策略，显著降低资源消耗。实验表明，与基线 nanoGCG 相比，FlashRT 实现 2x-7x 的加速（例如将运行时从一小时降至十分钟以内）和 2x-4x 的 GPU 内存降低（例如将 32K token 上下文的 GPU 内存从 264.1 GB 降至 65.7 GB）。该框架可泛化应用于其他黑盒优化方法（如 TAP 和 AutoDAN）。论文开源了代码（https://github.com/Wang-Yanting/FlashRT），旨在为社区提供高效的红队工具，支持系统化评估长上下文 LLM 的安全性。适合 LLM 安全研究者、红队测试工程师及关注 LLM 对齐与防御的从业人员阅读。

💡 推荐理由: 长上下文 LLM 安全评估因高昂计算成本而受限，FlashRT 大幅降低门槛，使学术界和中小团队也能进行系统化红队测试，推动 LLM 安全研究普及。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#red-teaming

SoK: Adversarial Robustness of the Variational Quantum Eigensolver via Red-Teaming

AMT-X: Phase-Structured Multi-Turn Red-Teaming with Checklist-Gated Evaluation

Beyond Attack-Success Rate: Action-Graded Severity Scale for Tool-Using AI Agents

CONTRA: Red-Teaming Configurations of Personalizable Agents

Securing the AI Agent: A Unified Framework for Multi-Layer Agent Red Teaming

MIRROR: Novelty-Constrained Memory-Guided MCTS Red-Teaming for Agentic RAG

DeepRed: A Deep Learning-Powered Command and Control Framework for Multi-Stage Red Teaming Against ML-based Network Intrusion Detection Systems.

LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems

FFinRED: An Expert-Guided Benchmark Generation and Evaluation Framework for Financial LLM Red-Teaming

A Red-Team Study of Anthropic Fable 5 & Opus 4.8 Models

AgentCyberRange: Benchmarking Frontier AI Systems in Realistic Cyber Ranges

MAStrike: Shapley-Guided Collusive Red-Teaming on Multi-Agent Systems

PI-Hunter: Automated Red-Teaming for Exposing and Localizing Prompt Injections

Beyond Pass/Fail: Using Process Mining to Understand How LLMs Resist (and Fail) Red Team Attacks

AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations

Cross-Generational Transfer of Adversarial Attacks Reveals Non-Monotonic Safety Alignment in LLMs

Adversarial Reframing: A Framework for Targeted Generation in Language Models

Babel: Jailbreaking Safety Attention via Obfuscation Distribution Optimized Sampling

A Red Teaming Framework for Evaluating Robustness of AI-enabled Security Orchestration, Automation, and Response Systems

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

IPI-proxy: An Intercepting Proxy for Red-Teaming Web-Browsing AI Agents Against Indirect Prompt Injection

Persona-Conditioned Adversarial Prompting: Multi-Identity Red-Teaming for Adversarial Discovery and Mitigation

Autonomous Adversary: Red-Teaming in the age of LLM

LoopTrap: Termination Poisoning Attacks on LLM Agents

Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours

ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption