#adversarial-ml

共收录 6 条相关安全情报。

← 返回所有主题
👥 作者: Ruoyu Song 0001, Muslum Ozgur Ozmen, Hyungsub Kim, Raymond Muller, Z. Berkay Celik, Antonio Bianchi

该论文研究了自动驾驶汽车在面对对抗性驾驶操作时的安全威胁。作者提出了一种系统性的方法,用于发现能够导致自动驾驶车辆发生碰撞或违反交通规则的对抗性驾驶操作。具体地,他们形式化了对抗性驾驶操作问题,将其建模为对手在有限感知和行动能力下对目标车辆施加影响的过程。通过利用车辆动力学模型和场景约束,他们设计了一种优化算法来搜索最恶劣的对抗性操作序列。在多个模拟场景(如高速公路、交叉路口)中,该方法成功发现了多种先前未知的对抗性操作,例如迫使目标车辆急转向或突然制动。实验表明,这些操作能够绕过基于规则的规划器和基于学习的控制器,导致安全隐患。该工作强调了自动驾驶系统在应对复杂交通交互时的脆弱性,并为后续防御研究提供了基准。

💡 推荐理由: 自动驾驶安全是现实世界的关切,该论文揭露了现有规划与控制算法在面对非预期驾驶操作时的盲区,有助于防御者理解攻击表面。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Udari Madhushani Sehwag, Zhengyang Shan, Heming Liu, Dileepa Lakshan, Joseph Brandifino, Max Fenkell

本文研究了大型语言模型(LLM)代理(agent)在寻求澄清(clarification-seeking)行为下的安全性问题。澄清行为通常被视为代理的理想属性,允许其在执行不明确任务前先解决歧义。然而,作者发现这种交互模式会显著增加代理对提示注入攻击(prompt injection)的脆弱性。为此,他们提出了ASPI(Ambiguous-State Prompt Injection)基准测试,包含728个任务-攻击场景,专门将澄清作为一个独立的代理状态,并在受控条件下比较执行状态和澄清状态下的脆弱性差异。每个基准实例在匹配的执行和澄清设置下进行评估:执行设置中,代理基于完全明确的指令行动,仅通过工具返回的数据接触对抗内容;澄清设置中,代理必须先请求并整合额外的用户输入才能行动。作者评估了10个前沿LLM,发现澄清行为一致且显著地放大了脆弱性。例如,对于o3模型,攻击成功率从1.8%上升到34.0%;对于Gemini-3-Flash,则从2.2%上升到35.7%。分解分析表明,这种差距既反映了模型处理传入内容时的状态依赖性转变,也源于代理主动请求澄清接口带来的通道特定效应。这些发现表明,标准执行时的安全评估系统性地低估了交互式代理的攻击面,且在完全指定任务下的鲁棒性并不能转化为歧义状态下的鲁棒性。论文数据和源代码已公开。

💡 推荐理由: 揭示了LLM代理的澄清行为会显著放大提示注入攻击的风险,对当前依赖代理交互的AI应用(如客服、工具调用)构成实际威胁,提醒安全从业者需重新评估代理在歧义状态下的安全防护。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Xiangxiang Chen 0002, Peixin Zhang 0001, Jun Sun 0001, Wenhai Wang, Jingyi Wang 0004

该论文提出了一种名为QuRA的新型后门攻击方法,利用深度学习模型量化过程中的舍入操作来注入恶意行为。与传统的依赖训练数据投毒或模型训练操纵的后门攻击不同,QuRA仅通过量化操作即可实现攻击。具体地,QuRA首先采用一种新颖的权重选择策略,识别对后门目标至关重要的权重(同时保持模型整体性能)。然后,通过优化这些权重的舍入方向,跨模型层放大后门效果,而不会显著降低模型精度。大量实验表明,QuRA在大多数情况下实现了近乎100%的攻击成功率,且性能下降可忽略不计。此外,QuRA能够绕过现有的后门防御措施,突显其威胁潜力。该研究揭示了广泛使用的模型量化过程中的关键漏洞,强调了需要更强大的安全措施。代码已开源。适合深度学习安全研究人员、模型部署工程师阅读。

💡 推荐理由: 首次揭示模型量化过程本身可作为后门注入向量,绕过传统防御,威胁广泛部署的量化模型。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Duanyi Yao, Songze Li, Xueluan Gong, Sizai Hou, Gaoning Pan

该论文研究纵向联邦学习(Vertical Federated Learning, VFL)中的隐私泄露问题,聚焦于数据重建攻击。VFL是一种允许多个参与方在不共享原始数据的情况下,基于同一组样本的不同特征共同训练模型的协作学习范式。然而,VFL面临来自数据重建攻击的隐私威胁。现有攻击主要分为两类:诚实但好奇(HBC)攻击,即攻击者遵守协议但试图窃取数据;以及恶意攻击,即攻击者违反训练协议以获取更多数据泄露。目前大多数研究集中于HBC场景,对恶意攻击的探索有限。在VFL中发起有效的恶意攻击面临两大挑战:首先,由于客户端的数据特征和模型是分布式的,每个客户端严格保护其隐私并禁止直接查询,使得窃取数据变得困难;其次,现有恶意攻击会改变底层VFL训练任务,因此容易通过比较接收到的梯度与诚实训练中的梯度而被检测到。为克服这些挑战,本文提出了URVFL,一种能够逃避现有检测机制的新型攻击策略。其核心思想是集成一个带有辅助分类器的判别器,充分利用标签信息生成针对受害客户端的恶意梯度:一方面,标签信息有助于更好地区分不同类别的样本嵌入,从而提升重建性能;另一方面,利用标签信息计算恶意梯度能更好地模拟诚实训练,使恶意梯度与诚实梯度难以区分,从而让攻击更加隐蔽。全面的实验表明,URVFL显著优于现有攻击,并成功规避了最先进的恶意攻击检测方法。额外的消融研究和针对防御措施的评估进一步证明了URVFL的鲁棒性和有效性。该研究揭示了纵向联邦学习中对恶意攻击检测的不足,对VFL安全设计具有重要警示意义。

💡 推荐理由: 揭示了纵向联邦学习现有检测机制对新型恶意攻击的脆弱性,提醒蓝队和安全工程师关注VFL训练过程中梯度交换环节的隐形泄露风险。

🎯 建议动作: 研究跟进,评估内部VFL系统对类似攻击的防御能力,并考虑引入更鲁棒的梯度验证方法。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Jan Dolejš, Martin Jureček, Róbert Lórencz

本文研究了针对现代恶意软件检测管道的灰盒投毒攻击模型。现代检测系统通常依赖持续数据摄入和机器学习来应对大量新型威胁。作者利用secml_malware框架,通过功能保留的操纵(具体为导入地址表IAT和节注入)生成问题空间对抗性二进制样本。他们评估了这些投毒样本被摄入到基于LightGBM的恶意软件检测模型训练集时的影响。实验结果表明,基于IAT的微妙扰动能够生成紧凑的投毒样本,显著降低检测召回率。这些发现揭示了在连续学习系统中开发低可视性对抗扰动同时保持高投毒效能的固有挑战。此外,作者评估了一种基于同质集成的防御机制,该机制能够成功识别并过滤高达95.6%的投毒尝试,同时保持对合法数据的高保留率。该工作强调了在生产管道中进行鲁棒的摄入前验证的必要性。本文适合安全工程师、对抗性机器学习研究人员以及恶意软件检测系统的开发人员阅读。

💡 推荐理由: 揭示了现代恶意软件检测管道在持续学习场景下面临的灰盒投毒威胁,并提出了实用的基于集成的防御方法,对保障检测系统鲁棒性具有重要意义。

🎯 建议动作: 研究跟进:将同质集成防御机制纳入内部恶意软件检测管道的预验证阶段。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Johannes Kortz, Paul Staat, Christof Paar, Christian Zenger

本文提出了一种名为 PINSIGHT 的系统性方法,用于全面评估基于 WiFi 信道状态信息的 PIN 码推断攻击的真实威胁。现有攻击(如 WiKI-Eve)声称在不同环境、设备和用户下都能保持高精度,但本文通过构建一个机器人打字平台,能够产生高度可重复的击键事件,并系统性地改变环境参数(如房间布局、家具位置等),首次分离了环境变化和打字编码本身对攻击性能的影响。实验结果表明,现有攻击在环境变化时表现出较好的泛化能力,但一旦信道对打字的编码方式发生改变(例如用户打字姿势、手指位置或设备放置方式不同),攻击精度就会显著下降。这恰恰是真实攻击场景中常见的情况。因此,本文认为当前最先进的 WiFi PIN 码推断攻击的实际威胁被高估了。PINSIGHT 还提供了第一个用于评估 WiFi PIN 推断攻击环境泛化能力的基准数据集。该研究有助于安全社区更准确地理解此类侧信道攻击的局限性,并为设计更鲁棒的防御措施提供指导。

💡 推荐理由: 该研究揭露了当前 WiFi 侧信道 PIN 码推断攻击在真实场景中的泛化能力有限,有助于安全从业者正确评估此类攻击的风险等级,避免过度恐慌或忽视。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)