#adversarial-testing

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Subhadip Mitra

当前针对大型语言模型(LLM)的对抗性测试方法存在覆盖不足的问题:人工红队测试难以规模化、LLM作为攻击者的方法容易出现模式崩溃(产生重复或相似攻击)、基于梯度的攻击则生成不可读的乱码。本文提出一种质量多样性(Quality-Diversity, QD)进化框架,在语义层面运作,演化出可解释的攻击策略而非直接操作词元序列。该方法使用MAP-Elites算法,在行为维度(策略类型、编码方法、提示长度)上维护一个多样化的攻击存档。实验覆盖GPT-4o-mini、Claude 3.5 Sonnet、Gemini 2.0 Flash以及一个开源编码模型(Devstral-small-2)。结果发现不同模型具有独特的脆弱性特征:GPT-4o-mini对假设性提示和多重回合框架结合ROT13编码的攻击最为脆弱(适应度0.8);Gemini对直接攻击搭配ROT13以及多重回合加Leetspeak敏感(0.8);而Claude在所有策略下都表现出一致的不确定响应(最大适应度0.4)。语义表示产生的攻击可解释,揭示了系统性的、模型特定的弱点,为改进LLM安全提供了可行见解,并建立了可复现的基线以评估未来前沿模型。代码和实验产物已开源。

💡 推荐理由: 自动化发现不同LLM模型特有的漏洞模式,比人工红队更高效,为安全团队提供可操作的攻击策略库,缩小安全测试覆盖盲区。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhi Chen, Shehab Sarar Ahmed, Chenkai Wang, Brighten Godfrey, Gang Wang

拥塞控制器(CC)对网络性能至关重要,但其在恶劣条件下的鲁棒性尚未得到充分理解。近年来,基于学习的CC在受控环境中表现强劲,但它们在输入信号被破坏或环境条件系统性地变得具有挑战性时,与传统CC相比表现如何仍不清楚。本文提出CCLab,一个用于系统评估学习型和非学习型CC鲁棒性的对抗性测试框架。CCLab包含一个基于强化学习(RL)的对抗性代理,该代理与拥塞控制策略闭环运行,在输入信号(特征级)或外部网络条件(环境级)上产生有界扰动,同时通过显式约束保持真实性。利用该框架,我们在特征级和环境级对抗条件下比较了学习型CC与非学习型CC。结果表明,尽管两种类型的CC在对抗测试中性能均有所下降,但学习型CC总体上比传统人为设计的算法更鲁棒。最后,我们展示了对抗性轨迹可用于训练更鲁棒的CC,其在挑战性和正常条件下均优于现有学习型CC。该研究为网络拥塞控制的安全性评估提供了新方法,适合网络研究员和安全工程师关注。

💡 推荐理由: 拥塞控制器是网络基础设施的核心组件,其鲁棒性直接影响服务稳定性。CCLab提供了系统性对抗测试方法,帮助发现潜在攻击面,并为设计更鲁棒的CC提供训练素材。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)