#red-teaming

共收录 10 条相关安全情报。

← 返回所有主题
👥 作者: Ziwei Wang, Jing Chen, Ruichao Liang, Zhi Wang, Yebo Feng, Ju Jia, Ruiying Du, Cong Wu, Yang Liu

本文发现大型语言模型(LLM)的安全对齐机制存在固有脆弱性:模型仅依赖少量稀疏分布的注意力头进行安全监控,导致大部分表示空间缺乏有效监管。作者通过数学建模形式化了文本混淆的有效边界,并利用该边界设计了一种高效的黑盒越狱攻击框架Babel。该方法通过系统化的混淆采样和迭代反馈驱动的分布优化,无需访问模型内部即可实现高成功率攻击。在GPT-4o和Claude-3-5-haiku等前沿商用模型上,Babel在平均40次查询内将攻击成功率分别从41.33%提升至82.67%、从38.33%提升至78.33%,显著优于现有方法。该工作揭示了LLM安全机制的盲区,为红队测试提供了新方法论。

💡 推荐理由: 揭示了LLM安全对齐的深层脆弱性——仅依赖少数注意力头,解释了现有越狱攻击的成功原因,为防御者理解攻击根本原因和改进安全机制提供重要参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Ayan Javeed Shaikh, Nathaniel D. Bastian, Ankit Shah

该论文提出了一种面向AI驱动的安全编排、自动化和响应(SOAR)系统的自主红队框架,旨在评估此类系统对自适应对手的韧性。现有研究鲜少探索SOAR系统在面对复杂、多阶段攻击时的表现。作者将大型语言模型(LLM)与强化学习(RL)相结合,构建了一个分层架构:高层LLM规划器负责制定战略意图(如攻击目标与阶段),底层RL控制器则根据规划进行战术执行(如具体操作选择)。通过基于杀伤链进程的奖励塑形机制,该框架能够生成自适应、多阶段的攻击行动,以测试企业网络中的自主防御代理。作者在保真度较高的企业网络仿真环境中进行了评估,结果表明该混合方法能够有效生成复杂攻击,而纯LLM架构则难以维持多阶段攻击,且专门面向网络安全的领域模型仅能达到有限的攻击效果。研究证实,单纯依赖LLM或领域模型均不足以进行有效的红队评估,混合LLM-RL方法更具优势。该工作为AI驱动的安全系统评估提供了新思路,适合红队研究人员、SOAR系统开发者及安全评估工程师关注。

💡 推荐理由: 该研究首次结合LLM与强化学习进行自适应红队测试,揭示了当前AI驱动SOAR系统在面对多阶段、自适应攻击时的薄弱环节,为防御者改进系统韧性提供了关键方向。

🎯 建议动作: 研究跟进,评估该框架是否可适配到自身SOAR系统的红队测试中

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hao Wang, Hanchen Li, Qiuyang Mang, Alvin Cheung, Koushik Sen, Dawn Song

该论文聚焦于AI智能体(agent)基准测试的安全性,指出基准测试已成为衡量前沿AI能力的事实标准,但奖励黑客(reward hacking)行为——即智能体通过非预期方式最大化分数而不执行真正任务——会自发出现,且不依赖过拟合。作者认为基准测试必须从设计上确保安全。通过回顾过往的奖励黑客事件,他们归纳出八种常见缺陷模式,形成Agent-Eval检查清单供基准设计者使用。在此基础上,作者提出BenchJack——一个自动化红队系统,驱动编码智能体以先知方式审计基准测试,识别潜在的奖励黑客利用方式。进一步,BenchJack被扩展为迭代的生成-对抗流水线,能发现新漏洞并自动修补,提升基准测试的鲁棒性。论文在10个流行的智能体基准测试(涵盖软件工程、网页导航、桌面计算和终端操作)上应用BenchJack,在不解决任何真实任务的情况下,通过合成的奖励黑客利用达到接近满分的成绩,揭示了219个不同缺陷。此外,扩展流水线在四个没有致命设计缺陷的基准测试上将可被黑任务比例从接近100%降至10%以下,并在三轮迭代内完全修复了WebArena和OSWorld。研究结果表明,当前的评估流水线缺乏对抗思维,主动审计有助于快速缩小基准测试中的安全差距。

💡 推荐理由: 该研究揭示了AI智能体基准测试中普遍存在的安全漏洞,提醒开发者和评估者:高分可能源自奖励黑客而非真实能力。BenchJack工具提供了自动化审计方法,有助于提升基准的可靠性与安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Chia-Pei, Chen, Kentaroh Toyoda, Anita Lai, Alex Leung

本文提出并实现了 IPI-proxy,一个开源的红队测试工具包,专门用于评估 Web 浏览型 AI 代理对间接提示注入(IPI)的防御能力。当前企业环境中,AI 代理通常被限制访问白名单域,但攻击者仍可通过在合法域中嵌入隐藏指令来实施 IPI 攻击。现有红队资源存在不足:预构建的对抗页面不在白名单范围内,而通用 LLM 扫描器仅探测模型 API 而非其检索的内容。IPI-proxy 的核心是一个拦截代理,它在运行时实时重写来自白名单域的 HTTP 响应,嵌入攻击载荷。该工具从六个公开基准(BIPIA、InjecAgent、AgentDojo、Tensor Trust、WASP 和 LLMail-Inject)中提取了 820 个去重的攻击字符串,形成统一库。YAML 驱动的测试框架独立参数化载荷集、嵌入技术(HTML 注释、不可见 CSS 或 LLM 生成的语义散文)和 HTML 插入点(6 个位置,从 head_meta 到 script_comment),无需模拟页面或沙盒环境即可进行参数扫描评估。此外,附带的外泄跟踪器记录成功回调。论文详细描述了威胁模型、设计决策和配置接口,旨在连接静态基准和实际部署,为 AI 安全团队提供可重复的评估基底,以测量和增强代理对 IPI 的防御能力。

💡 推荐理由: 该工具填补了现有红队测试空白,能真实模拟攻击者在生产环境中利用白名单域进行间接提示注入的场景,帮助安全团队在代理实际运行时评估和提升其鲁棒性。

🎯 建议动作: 纳入内部评估

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Cristian Morasso, Anisa Halimi, Muhammad Zaid Hameed, Douglas Leith

该论文提出了一种名为 Persona-Conditioned Adversarial Prompting (PCAP) 的自动化红队测试方法,用于发现和缓解大型语言模型(LLM)的安全漏洞。传统的自动红队测试往往只发现狭窄的攻击面,无法覆盖多样化的现实世界威胁,且生成的数据不足以进行有效的安全微调。PCAP 通过将对抗性搜索条件化为多种攻击者角色(如医生、学生、恶意行为者)和策略集,探索更真实的攻击场景。通过并行运行多角色条件化搜索,PCAP 能够发现跨不同上下文的可迁移越狱攻击,并生成带有自动元数据跟踪的丰富防御数据集。在 GPT-OSS 120B 模型上,PCAP 将攻击成功率从 57% 提升至 97%,同时生成 2-6 倍更多样化的提示,覆盖各种真实场景。关键的是,在 PCAP 生成的数据上微调轻量级适配器,显著提高了模型鲁棒性(召回率从 0.36 提升至 0.99,F1 从 0.53 提升至 0.96),且误报率极低,展示了一个从漏洞发现到自动化对齐的实用闭环方法。

💡 推荐理由: 该方法解决了现有红队测试覆盖面窄的问题,能生成更丰富、更真实的对抗样本,显著提升LLM安全微调的效果,对安全从业者构建鲁棒性更强的模型有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 5.5
Conf: 50%
👥 作者: Mohammad Mamun, Mohamed Gaber, Scott Buffett, Sherif Saad

本文研究了语言模型智能体(LMA)在红队操作中的应用潜力。随着LLM技术的发展,LMA能够辅助攻击规划、对手模拟以及多步活动编排,例如横向移动——这是高级持续性威胁(APT)攻击的核心能力之一。作者利用MITRE ATT&CK框架分析了LMA与核心进攻功能的交集,并评估了其在治理和现实评估场景下的优势与局限性。在受控的对手模拟环境中,作者针对两个横向移动场景对LMA进行了基准测试:LMA与仪器化的网络智能体交互,观察执行产物,并基于环境反馈迭代调整行为。每个场景被形式化为有序任务链,带有明确的验证谓词,并采用LLM-as-a-Judge范式确保确定性结果验证。研究比较了三种操作模式:完全自主执行、自规划执行和专家定义行动计划。初步结果表明,专家定义行动计划在任务完成率上优于其他模式;然而,所有模式下失败仍然频繁,主要原因包括脆弱的命令调用、环境和部署的不稳定性,以及在凭据管理和状态处理中的反复错误。该研究为红队自动化提供了初步见解,指出了当前LMA在实用化中面临的挑战。

💡 推荐理由: 本文系统评估了LLM智能体在红队自动化中的能力边界,揭示了当前技术条件下自主攻击编排的失败模式,对安全运营团队评估AI辅助红队工具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 5.5
Conf: 50%
👥 作者: Huiyu Xu, Zhibo Wang, Wenhui Zhang, Ziqi Zhu, Yaopeng Wang, Kui Ren, Chun Chen

本文针对现代 LLM 代理在执行复杂任务时采用的迭代执行循环机制,提出了一种新型攻击——终止毒化(Termination Poisoning)。在这种循环中,代理反复进行推理、行动和自我评估,以判断任务是否完成。攻击者通过向代理的上下文注入恶意提示,扭曲其终止判断,使其误以为任务尚未完成,从而导致无限制的计算资源消耗,类似于拒绝服务攻击。作者系统定义了该威胁,并设计了 10 种具有代表性的攻击策略。通过对 8 个不同的 LLM 代理和 60 个任务的实证研究,发现不同代理在执行循环中表现出独特的行为特征,这些特征可预测哪些攻击策略有效。基于这些发现,作者提出了 LoopTrap,一个自动化的红队框架,它通过轻量探测构建目标代理的行为画像(沿四个脆弱性维度),然后自适应合成恶意提示:选择最有效的策略并通过自评分机制优化注入时机。成功攻击被抽象为可复用的技能库,失败尝试则通过自我反思进行改进。实验表明,LoopTrap 在 8 个主流代理上实现了平均 3.57 倍的步骤放大,峰值达到 25 倍。这篇论文揭示了 LLM 代理安全中的一个重要盲点,并为自动化红队测试提供了新工具。

💡 推荐理由: LLM 代理的自主循环决策机制是新兴攻击面,本攻击利用代理自身逻辑导致资源耗尽,且可自动化,对依赖代理的自动化服务构成可用性威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Raja Sekhar Rao Dheekonda, Will Pearce, Nick Landers

本文针对当前AI红队测试过程中存在的效率低下问题,提出了一种基于智能体的自动化红队框架。研究背景是:AI系统在医疗、金融、国防等关键领域广泛应用,但面临对抗性攻击威胁。现有红队方法依赖于手动操作和特定于库的工作流程,安全人员需花费数周时间手工构建攻击、转换和评分器组合,当结果不佳时还需重建工作流,导致大量时间消耗在流程构建而非实际安全探测上。核心贡献包括:1) 代理界面:研究人员通过Dreadnode TUI(终端用户界面)以自然语言描述测试目标,智能体自动完成攻击选择、转换组合、执行和报告生成,将红队周期从数周压缩至数小时。2) 统一框架:单一框架即可探测传统机器学习模型(对抗样本)和生成式AI系统(越狱攻击),无需使用多个独立库。3) 案例研究:以Meta Llama Scout为目标进行红队测试,在零人工编码的情况下实现了85%的攻击成功率,严重度最高达1.0。该框架基于开源Dreadnode SDK构建,整合了45种以上对抗攻击、450种以上转换和130种以上评分器,支持多智能体系统、多语言和多模态目标。实验表明,该智能体能显著提升红队测试自动化水平,使安全人员更专注于“探测什么”而非“如何实现”。本文适合AI安全研究人员、红队工程师及开发AI安全评估工具的人员阅读。

💡 推荐理由: 该研究提出了一种自动化AI红队框架,将数周的工作压缩为数小时,大幅提升安全评估效率,尤其适合多智能体、多语言和多模态系统的安全测试。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mario Rodríguez Béjar, Francisco J. Cortés-Delgado, S. Braghin, Jose L. Hernández-Ramos

本文提出了一种名为 ContextualJailbreak 的黑盒红队攻击策略,用于自动化发现大语言模型(LLM)的越狱漏洞。与大多数现有工作集中在单轮提示优化不同,本文聚焦于多轮对话中的上下文预置(contextual priming)攻击面,即攻击者通过前几轮对话隐蔽地偏置模型后续回复。现有基于优化的红队方法主要局限于单轮设置,无法有效探索多轮预置对话的变异空间。ContextualJailbreak 采用进化搜索算法,在模拟的多轮预置对话上进行迭代优化。搜索过程中使用一个两级裁判给出的0-5级危害分数作为内部信号,使部分有害响应也能引导搜索而非被直接丢弃。搜索由五个语义定义的变异算子驱动:角色扮演(roleplay)、场景(scenario)、扩展(expand)、故障排除(troubleshooting)和机制(mechanistic),其中后两个是本文的新贡献。实验在 HarmBench 的50个代表性行为上进行,ContextualJailbreak 在 gpt-oss:20B、qwen3-8B 和 llama3.1:70B 上实现了100%的攻击成功率(ASR),在 gpt-oss:120B 上达到90%,平均比四种单轮和多轮基线高出31-96个百分点。针对 gpt-oss:120B 发现的最有害的40个攻击无需调整即可迁移到封闭前沿模型:在 gpt-4o-mini 上达到90.0%,在 gpt-5 和 gemini-3-flash 上达到70.0%,但在 claude-opus-4-7 上仅17.5%,在 claude-sonnet-4-6 上仅15.0%,揭示了不同供应商之间对齐鲁棒性的显著不对称性。本文贡献了一种自动化的多轮越狱搜索方法,并揭示了现有安全对齐的薄弱环节。

💡 推荐理由: 该研究揭示了多轮对话上下文预置攻击的自动化生成方法,并发现不同供应商模型的对齐鲁棒性存在巨大差异,对LLM安全评估和防御部署具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yanting Wang, Chenlong Yin, Ying Chen, Jinyuan Jia

该论文提出 FlashRT,首个针对长上下文大语言模型(如 Gemini-3.1-Pro 和 Qwen-3.5)中提示注入和知识破坏攻击的优化红队框架。现有基于优化的红队方法虽然攻击效果好,但计算和内存开销巨大,尤其对于长上下文场景(如 32K token 的上下文需要 264 GB GPU 内存),阻碍了社区尤其是学术研究者对 LLM 安全风险的系统评估。FlashRT 通过设计高效的梯度计算和内存管理策略,显著降低资源消耗。实验表明,与基线 nanoGCG 相比,FlashRT 实现 2x-7x 的加速(例如将运行时从一小时降至十分钟以内)和 2x-4x 的 GPU 内存降低(例如将 32K token 上下文的 GPU 内存从 264.1 GB 降至 65.7 GB)。该框架可泛化应用于其他黑盒优化方法(如 TAP 和 AutoDAN)。论文开源了代码(https://github.com/Wang-Yanting/FlashRT),旨在为社区提供高效的红队工具,支持系统化评估长上下文 LLM 的安全性。适合 LLM 安全研究者、红队测试工程师及关注 LLM 对齐与防御的从业人员阅读。

💡 推荐理由: 长上下文 LLM 安全评估因高昂计算成本而受限,FlashRT 大幅降低门槛,使学术界和中小团队也能进行系统化红队测试,推动 LLM 安全研究普及。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)