👥 作者: Lijia Yu, Jiuxin Cao, Yuchen Qiang, Changhao Chen, Yifei Huang, Bo Liu
本文针对视觉-语言预训练(VLP)模型的对抗可迁移性问题展开研究。现有基于迁移的黑盒攻击方法通常严重依赖替代模型,导致对抗样本在替代模型上有效,但在未知目标模型上效果不佳。作者将此归因于对抗优化过程中替代模型特定的偏差(surrogate-specific bias),即更新方向更多地响应替代模型的特性而非输入语义。为纠正这一偏差,提出 DeBias-Attack 方法。该方法维护两个扰动分支:主分支在原始图像上优化扰动,获取破坏图像-文本对齐的对抗梯度;参考分支在弱语义图像上优化扰动,该弱语义图像由数据集平均图像加上每轮重新采样的小高斯噪声构成,由于缺乏清晰视觉内容,其优化过程更能反映替代模型的响应,从而估计出替代特定偏差。通过从主梯度中移除其在参考梯度上的对齐投影,再结合上下文感知文本替换更新对抗图像,实现偏差纠正。实验在多种 VLP 模型(如 ALBEF、BLIP)、下游任务(图像检索、图像描述)以及开源和闭源多模态大语言模型上验证了该方法的优越性能。本文首次将梯度校正引入 VLP 迁移攻击,为黑盒攻防研究提供了新视角。
💡 推荐理由: 本研究揭示了VLP模型对抗迁移性瓶颈的根源——替代特定偏差,并提出有效纠正方法,为设计更鲁棒的视觉-语言模型及防御策略提供关键参考。
🎯 建议动作: 研究跟进,评估该方法对内部VLP模型的影响,并探索相应的防御手段。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Qin Yang, Lu Malloy, Joshua Lee, Xiaohan Chang, Meisam Mohammady, Doowon Kim, Yuan Hong
这篇论文研究了基于大型语言模型(LLM)的内容审核系统在视觉感知上的盲点。作者指出,当前的内容审核系统主要依赖令牌化文本,忽略了人类在理解内容时所依赖的视觉线索,例如字体、间距、排列等排版特征。这种感知不匹配导致:人类能轻易识别的有害内容,对自动审核系统来说可能完全不可见。为了系统性地研究这一漏洞,作者提出了一类新的攻击手段——人类感知对抗攻击(Human-Perceptible Adversarial Attacks, HPAA)。其核心思想是通过视觉上显著的排版操纵,将有害表达嵌入到看似无害的文本中,使得人类仍能识别其有害性,而机器检测率大幅下降。攻击完全在黑盒设置下进行,仅需少量查询(实验中仅需3次),无需模型访问或梯度信息。作者在多个数据集和十种实际部署的审核系统(包括商业API和最先进的开源防护栏)上评估了攻击效果。结果显示,攻击生成的内容在人类识别率超过86%的同时,在所有被评估系统上的检测率均低于1%。进一步的消融实验分析了促成成功规避的排版因素,并讨论了当前审核架构为何无法捕捉这些信号。最后,作者提出了一些实用性防御措施。该研究揭示了当前基于LLM的审核生态系统中的一个根本盲点,强调需要开发能够更符合人类感知理解的内容审核系统。
💡 推荐理由: 该研究揭示了LLM内容审核系统在视觉感知层面的结构性缺陷,攻击仅需少量查询即可实现极低检测率,对依赖LLM过滤有害内容的平台构成潜在威胁。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yifan Liao, Zongmin Zhang, Zhen Sun, Yuhui Sun, Xinhu Zheng, Xinlei He
本文针对自动语音识别(ASR)系统的对抗鲁棒性展开研究。现有对抗攻击直接在波形域添加噪声,存在两个主要局限:一是对黑盒ASR系统的迁移性差,二是易被专门防御波形扰动的机制缓解。为此,作者提出了一种基于代理模型的Clean-Referenced Feature-Vocoder Attack(CR-FVA),将对抗扰动空间从原始波形转移到自监督学习(SSL)表示空间。具体而言,攻击者首先在代理ASR模型(如Whisper-small)的SSL特征层上计算对抗梯度,并扰动更具泛化性的声学-音素表示,从而减少对代理模型特定波形梯度的依赖,提升跨系统迁移性;然后利用声码器(vocoder)将扰动后的SSL特征重构为类语音波形信号,使得最终对抗样本看起来更像自然语音,从而绕过基于波形边界的防御。实验表明,仅以公开的Whisper-small为代理模型,CR-FVA在多个黑盒ASR模型上实现了相对最佳基线平均+26.6%的词错误率(WER)提升;针对多种训练防御(如对抗训练、频谱压缩等),WER提升幅度达+36.2%。该研究揭示了当前ASR鲁棒性评估中的一个盲区:大多数防御仅关注波形域扰动,而基于更高层特征的攻击能轻易绕过。本文工作适合ASR安全研究者、对抗机器学习从业者以及语音系统防御工程师阅读,有助于理解现有防御的不足并设计更全面的鲁棒性评估方案。
💡 推荐理由: 该攻击方法揭示了ASR系统在特征层面的新攻击面,能有效绕过现有基于波形扰动的防御,并展现出强黑盒迁移性,对语音助手、会议转录等关键应用的安全性构成潜在威胁,促使防御者重新审视鲁棒性评估标准。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Bochen Lyu, Yiyang Jia, Xiaohao Cai, Zhanxing Zhu
本文研究了大型语言模型(LLM)安全对齐的脆弱性,提出其根本原因在于自回归一致性——即自回归模型在预测下一个token时倾向于保持并延续当前生成轨迹的特性。作者通过分析安全对齐微调的学习动态,发现对齐更新主要集中在输出序列的前几个token上,导致安全对齐呈现“浅层”现象:模型仅在早期响应中拒绝有害请求,而后续生成可能偏离安全轨迹。这一机制也预测了一类更广泛的攻击:攻击者可以在输出轨迹的任意位置诱导一个有害的“连续状态”(harmful continuation state),从而劫持生成过程。作为具体示例,本文提出了随机插入攻击(random insertion attack),该方法在原本安全的拒绝回复中插入一个简短的有害片段(例如几个有害词),利用自回归一致性使模型延续该有害分支,即使之前已有大量拒绝前缀也能成功绕过安全对齐。实验表明,即使插入片段很短,也能使模型产生有害输出,凸显了自回归一致性作为更广泛失败机制的可能性。基于以上发现,作者提出对抗性安全对齐(adversarial safety alignment)框架,通过考虑最坏情况下的有害连续状态来训练模型,并实例化为随机最坏插入训练(random worst-insertion training)。总体而言,本文揭示了自回归一致性在安全对齐和攻击设计中的核心地位,为理解LLM安全脆弱性提供了新的理论视角,并为防御策略改进指明了方向。
💡 推荐理由: 本文首次从自回归一致性的动力学角度解释了LLM安全对齐浅层化的根本原因,并据此预测并验证了一种新型攻击(随机插入攻击),同时提出了对抗性安全对齐的防御框架。对安全从业者而言,理解这一机制有助于设计更鲁棒的对齐方法和评估现有防御的局限性。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Malia Barker, Bishal Lakha, Edoardo Serra, Francesco Gullo
该论文研究了大型语言模型(LLM)在算术推理任务中对数值变化的鲁棒性问题。尽管LLM在基准测试中表现优异,但已有研究表明其对数值变化敏感:同一问题在不同数值下可能失败。现有方法多依赖模板或人工约束,局限性较大。为此,作者提出一种自动化的数值重映射攻击算法,能够生成保留原始推理程序的小规模数值变换,从而测试模型的泛化能力。该方法首先从问题中提取符号表示,生成受约束的数值重映射,重新计算正确答案,并通过LLM生成的编辑计划实现确定性变换。通过阶段验证和高置信度审计确保攻击可靠性,使管道可扩展。在GSM8K、MAWPS和MultiArith三个数据集上对DeepSeek-R1(70B)、Gemma4(31B)和GPT-OSS(120B)进行了评估。结果显示,在GSM8K上,已完成运行的模型条件准确率下降了12.16至25.82个百分点,而MAWPS和MultiArith则非常稳定,攻击后准确率仍接近或超过98%。这表明数值重映射鲁棒性高度依赖于数据集结构:GSM8K即使在保留推理程序和重计算答案的情况下仍然脆弱,而更短、更规整的数据集则更为鲁棒。该工作为评估LLM的算术推理泛化能力提供了一种新方法,对安全从业者理解LLM在数值推理任务中的局限性具有参考价值。
💡 推荐理由: 本方法揭示了LLM在算术推理中仍存在数值泛化脆弱性,即使使用小幅度、保留推理逻辑的数值变化也能导致准确率显著下降,对依赖LLM进行数学推理的应用场景构成潜在风险。
🎯 建议动作: 研究跟进,评估自身LLM对数值变化的鲁棒性,并在关键场景中考虑添加外部验证。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jinghuai Zhang, Yetian He, Kunlin Cai, Han Zhao, Fnu Suya, Yuan Tian
本文提出了 RogueMerge,一个针对大语言模型(LLM)模型合并过程的统一攻击框架。模型合并通过聚合来自未经验证的公共平台的任务向量,将多个专用能力组合到单个 LLM 中,这暴露了关键的供应链攻击面:因为任何恶意行为都可以编码到任务向量中,且合并过程授予第三方向量对模型权重的直接写入权限,攻击者提供的任务向量可以启用或放大多种下游威胁。之前的工作仅研究针对分类器的静态算术启发式后门攻击,无法有效处理生成式 LLM 上的多种攻击,原因有三:(i) LLM 依赖自回归解码,合并引入的微小参数漂移会在 token 间累积,迅速降低攻击效果;(ii) 攻击者不知道受害者合并配置,静态攻击向量容易被稀释或破坏;(iii) 实际威胁诱导必须泛化到优化期间未见过的攻击提示,静态向量无法充分编码。RogueMerge 解决了这三个挑战:为处理自回归生成,它用联合优化替换静态算术,显式地确保合并后攻击成功;为处理未知合并设置,它将攻击注入形式化为随机最小-最大问题,并通过元学习风格模拟求解;为跨异构攻击提示泛化,它采用分布鲁棒优化并推导出 LLM 规模下可处理的一阶泰勒近似,具有可证明的误差界。在四种威胁、六种合并算法和超过 170 个合并 LLM 上,RogueMerge 持续优于现有攻击,且在不同合并设置下保持稳定,并能抵抗标准防御。
💡 推荐理由: 模型合并作为 LLM 供应链中的新兴范式,其安全性研究严重不足。RogueMerge 首次系统地揭示了该场景下的统一攻击面,对依赖公共模型合并的团队构成切实威胁,也为防御机制设计提供了基准。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yingzi Ma, Zhengyue Zhao, Xiaogeng Liu, Minhui Xue, Yue Zhao, Chaowei Xiao
本文提出了一种针对扩散大规模语言模型(dLLMs)的黑盒越狱攻击方法MaskForge。dLLMs通过迭代去噪部分掩码序列生成文本,其安全面与自回归LLMs不同:掩码令牌是原生输入,令牌基于置信度而非位置确定,因此有害内容可以通过填充(infilling)并在监控前缀之外诱导。现有越狱方法要么忽略这种原生填充能力,要么使用低多样性的掩码模板,缺乏结构适应性。MaskForge将dLLM红队测试转化为对结构模式库的优化搜索:它抽象成功尝试为可重用模式,使用上置信界(UCB)多臂赌博机算法选择与目标兼容的模式,并在当前库失败时调用评分器引导的回落机制;成功尝试被蒸馏回模式库,实现跨目标的经验积累。在5个公开dLLM和3个基准上,MaskForge的平均攻击成功率达79.3%,相对最强基线提升17.6%;其成熟模式库无需更新即可迁移至AdvBench,攻击成功率达88.2%,相对最强基线提升67%。该研究揭示了dLLM特有的安全风险,为防御者提供了新的攻击面认知。
💡 推荐理由: 扩散LLM在工业界应用渐广,其双向上下文生成机制带来与传统自回归模型不同的安全面。MaskForge首次系统性地利用dLLM的填充能力进行自适应攻击,防御者需了解此类攻击向量以设计针对性防护。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yani Wang, Yilong Yang, Yang Liu, Zhuzhu Wang, Zuobin Ying, Zhuo Ma
该论文提出了一种名为分布式语义重组(DSR)的新型跨模态越狱攻击框架,旨在绕过多模态大语言模型(MLLM)的安全防护。现有安全措施主要针对单模态文本输入进行拦截,但跨模态攻击可能通过图像等非文本载体隐藏恶意意图。DSR的核心思想是将有害意图分解为一组良性的文本和视觉基元(例如无害的短语和图片),这些基元单独看来不包含危险内容,但经过模型的推理和跨模态融合后,能在输出端组合成有害信息。这种方法利用MLLM强大的指令遵循和推理能力,使得模型自身成为攻击的助力。该框架无需在输入中携带任何显式有害内容,因此难以被现有基于输入过滤的安全机制检测。实验在多个商业MLLM流水线上进行,结果显示DSR实现了极高的攻击成功率,同时输入毒性极低甚至可忽略不计。该工作揭示了MLLM中存在的“效用-安全悖论”:模型越能准确理解并执行复杂指令,就越容易被利用来生成有害输出。论文还讨论了防御方向,如加强跨模态推理阶段的监控和输出过滤。研究贡献在于首次系统性地提出并验证了纯良性输入导致有害输出的跨模态攻击范式,对MLLM安全设计具有重要警示意义。
💡 推荐理由: 揭示了MLLM面临的全新威胁:攻击者无需输入任何恶意内容,仅通过精心编排的良性文本和图像组合即可使模型生成危险输出。这对依赖输入过滤的现有防御体系构成了根本挑战。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ei Hmue Khine, Yao Li, Jiebao Sun, Shengzhu Shi, Zhichang Guo, Boying Wu
该论文聚焦于决策型黑盒对抗攻击(decision-based black-box adversarial attacks)这一严重安全威胁。现有方法存在根本性局限:像素级攻击常引入不自然的高频视觉伪影,而潜在空间框架受限于低维流形的搜索空间以及固有的重建缺陷。为克服这些问题,作者提出了一种名为Latent Geometric Chords(LGC)的高效查询型决策黑盒对抗攻击方法及其变体LGC-H。LGC的核心是在压缩语义流形内执行曲率感知的几何搜索以导航决策边界。为保证高视觉保真度并规避维度瓶颈,作者引入了基于残差的对抗生成(RAG)机制。RAG将语义扰动隔离为几何弦,并直接叠加到原始源图像上,从而显著改善了基线重建缺陷,并将可搜索空间维度有效翻倍。实验结果表明,LGC具有鲁棒的跨数据集迁移能力,并在多个性能指标上显著优于现有基线方法。具体而言,在5000次查询限制下,LGC实现了最小扰动幅度和最高视觉保真度,结构相似性指数(SSIM)超过0.99,学习感知图像块相似度(LPIPS)低于0.01,同时在严格的感知约束下保持高攻击成功率,成功攻破了经过对抗训练(adversarially trained)的鲁棒模型。该工作对理解黑盒模型的脆弱性以及开发更安全的机器学习系统具有重要意义。
💡 推荐理由: 该研究提出了一种高效且视觉保真的决策型黑盒攻击方法,可有效评估和暴露机器学习模型的安全隐患,对开发防御策略和提升模型鲁棒性具有直接参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Churui Zeng, Weiwei Qi, Kedong Xiu, Tianhang Zheng, Chaochao Lu, Liang He, Zhan Qin, Kui Ren
随着LLM Agent(智能体)的兴起,它们能够自主规划、编写代码甚至端到端执行专家级的攻击工作流,这带来了新的安全威胁。然而,这种威胁目前尚未被充分研究和重视,原因有二:一是安全对齐机制阻止LLM直接生成有害指令;二是现有的越狱方法大多无法持续诱导Agent执行恶意操作。本文提出了TRACE,一个实用的Agent越狱框架,旨在进一步揭示该威胁面的风险。为了隐藏恶意意图,TRACE将恶意任务分解为多个不同方案下的子任务序列,并选择其中显式有害子任务最少的序列。然后,TRACE通过将剩余的有害子任务嵌入到任务感知的场景中(包含相关角色、环境、指令和启发式规则)来伪装成看似良性的指令。这些场景通过明确定义的转换操作进行迭代演化,这些转换操作由Q-learning启发的机制采样,以诱导Agent执行有害子任务。在AgentHarm和AdvCUA上的广泛评估表明,TRACE在多个先进的LLM Agent上持续优于现有的越狱基线,实现了高达100%的绕过率和0.73的平均成功得分。此外,作者还在受控的网络攻击实例中展示了TRACE的有效性。代码和演示可在GitHub上获取。本文的核心贡献在于系统性地揭示了LLM Agent面临的越狱风险,并提出了一种可复现的评估框架。适合AI安全研究员、红队工程师和LLM应用开发者阅读。
💡 推荐理由: 该研究首次系统性地针对LLM Agent的越狱威胁提出了实用框架,揭示了Agent在自动化攻击任务中的脆弱性,为防御方理解并评估此类风险提供了重要参考。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Brian Crawford, Justin Phillips, Patrick McClure
该论文研究了针对大型语言模型(LLM)驱动的逆向工程 AI 代理的自动化攻击方法。随着 LLM 被集成到如 Ghidra 等二进制逆向工程工具中,自动化分析流程得以实现,但同时也引入了新的安全风险。作者提出了一种基于遗传算法的提示生成技术(AutoDAN 的变种),用于欺骗 LLM 驱动的反汇编和反编译系统,使其错误理解二进制可执行文件,从而破坏分析输出。该方法利用 LLM 在处理反编译代码时对提示注入的脆弱性,通过在二进制文件中插入不影响功能的额外字符串变量赋值,向 LLM 传递隐蔽指令。实验通过多个简洁示例展示了该攻击的有效性,证明攻击者能够绕过依赖 LLM 分析的自动化检测系统。该研究揭示了将 LLM 集成到网络安全工具链中的安全隐患,并为构建更稳健的自主代码分析系统提供了见解。适合安全研究人员、LLM 安全工程师及逆向工程工具开发者阅读。
💡 推荐理由: 该论文首次系统性地提出针对 LLM 逆向工程代理的自动化对抗攻击,揭示了 AI 驱动安全工具的新脆弱面,对依赖 LLM 进行恶意软件分析的安全运营团队具有重要警示意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Junke Zhang, Jianwei Wang, Sishuo Chen, Yizhang He, Qingshuai Feng, Zhengyi Yang
该论文提出了一种名为MemoAttack的黑盒越狱攻击框架,旨在自动化生成对大型语言模型(LLM)的有效对抗性提示。现有黑盒越狱方法要么依赖样本级启发式搜索,要么通过积累策略池或方法库来利用攻击经验,但缺乏对攻击经验的系统组织和管理。MemoAttack通过三个关键设计解决这一问题:(1)技能结构化记忆建模,将积累的攻击经验抽象为可复用的技能结构化攻击记忆,每个记忆单元将攻击技能与模板、证据和生命周期状态配对;(2)生命周期驱动的记忆演化,通过基于证据的试用、晋升、退休、重新激活、淘汰和存储清理来演化记忆;(3)探索-利用平衡的记忆选择,通过上下文汤普森采样在可靠记忆复用与不确定性驱动的探索之间取得平衡。在AdvBench上的实验表明,MemoAttack实现了98.00%的平均攻击成功率,比最强基线高出16.67个百分点,同时将请求数量减少了45.9%。此外,随着更多样本的记忆积累,MemoAttack的性能持续提升。该研究揭示了攻击经验的有效组织可显著提升越狱攻击的效率与效果,对LLM安全评估具有重要警示意义。
💡 推荐理由: 该工作展示了通过结构化记忆管理可以大幅提升黑盒越狱攻击的成功率(98%)并降低请求成本,揭示了当前LLM安全防御面临的系统性风险,安全团队需关注此类攻击演进趋势。
🎯 建议动作: 研究跟进,评估自身LLM服务对该类攻击的鲁棒性,并关注后续防御方案。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yinyuan Zhang, Cuiying Gao, Yueming Wu 0001, Shihan Dou, Cong Wu 0003, Ying Zhang 0066, Wei Yuan 0001, Yang Liu 0003
本文提出了一种名为“Fighting Fire with Fire”的连续攻击方法,用于对抗Android恶意软件检测系统。研究背景是当前Android恶意软件检测模型容易受到对抗样本攻击,而现有的防御方法往往被动且效果有限。核心问题是如何主动且持续地生成对抗样本以训练更鲁棒的检测模型。方法上,作者设计了一种迭代攻击框架,能够在检测模型不断更新的过程中持续生成高效对抗样本,形成攻击与防御的博弈。实验表明,该方法能显著降低多种主流检测模型(如Drebin、MalDozer)的准确率,并证明通过这种连续攻击训练出的模型在对抗性上比传统对抗训练更具鲁棒性。主要贡献包括:1) 首次提出连续攻击范式;2) 揭示了静态对抗训练的局限性;3) 提供了一种新的评估检测模型鲁棒性的方法。适合安全研究人员及Android安全工程师阅读。
💡 推荐理由: 对抗攻击是安全模型部署的主要威胁,本文提出的连续攻击方法能帮助蓝队更真实地评估和增强检测模型的鲁棒性,具有直接防御价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Qingying Hao, Licheng Luo, Steve T. K. Jan, Gang Wang 0011
本论文研究了感知哈希(Perceptual Hashing)算法的安全性,重点关注其在实际应用(如版权检测、内容审核)中的脆弱性。作者提出了一种针对感知哈希的对抗性攻击方法,能够操纵图像使得其感知哈希值在攻击者控制下发生变化,而视觉效果保持相似或不同。具体来说,攻击者可以生成两张视觉上相同但哈希值截然不同的图像,或者视觉上不同但哈希值相同的图像。这种攻击利用了感知哈希算法对图像微小扰动的敏感性,通过优化噪声添加来实现。实验在pHash、DCT-based哈希等常见感知哈希算法上进行,证明了攻击的有效性。结果表明,基于感知哈希的应用可能被欺骗,从而绕过版权检测、虚假删除合法内容或隐藏恶意内容。论文还讨论了潜在防御策略,如更鲁棒的哈希设计或结合图像质量指标。该工作揭示了感知哈希在安全关键场景中的不足,对内容平台和数字取证领域具有重要警示意义。
💡 推荐理由: 感知哈希广泛应用于版权检测和内容审核,该攻击揭示其易被操纵,可能导致误判或滥用,影响平台安全与内容合规。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Aditya Sridhar
概念瓶颈模型(CBM)是可解释机器学习的重要方法,通过显式的概念激活提供人类可理解的中间表示。然而,这种可解释性引入了一个此前未被探索的攻击面:概念瓶颈层本身。本文首次系统性地研究了CBM在概念层面的对抗性脆弱性,发现针对输入像素的微小、定向扰动可通过操纵语义表示导致灾难性的分类错误。作者建立了一个严格的理论框架来量化概念空间的鲁棒性,提出了新的度量标准,揭示了这些架构的脆弱性景观。在CUB-200-2011数据集上的广泛分析表明,标准CBM对概念级操纵表现出严重的脆弱性。为应对这一关键弱点,作者引入了SPECTRA(基于语义扰动的概念训练以增强鲁棒性),这是一种原则性的稳定性正则化防御。SPECTRA有效地强化了语义表示空间,将成功攻击所需的最小扰动范数从0.46提高到超过4200,使得定向概念操纵在计算上不可行。此外,SPECTRA将基线分类准确率保持在2.2%以内。通过将概念级攻击确立为一个根本不同的威胁模型,这项工作在可解释机器学习与对抗鲁棒性的交叉领域开辟了一个新的研究前沿。
💡 推荐理由: 首次揭示可解释CBM自身的高危攻击面:通过微小像素扰动操纵中间概念层即可导致分类失效,威胁依赖CBM的安全关键应用(如医疗影像、自动驾驶)。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Phuc Duc Nguyen, Quang Duc Nguyen
本文研究了测试时自适应(Test-time Adaptation, TTA)场景下的一种新型对抗攻击。TTA通过利用无标签测试流来应对分布漂移,但这也为对手提供了可乘之机。现有的类级别定向攻击在TTA中不够隐蔽:由于TTA批量处理,迫使部分样本趋向目标标签会无意中带动相似良性样本,导致目标标签出现频率过高,容易被检测。本文提出一种更真实的样本级定向攻击,攻击者仅使携带特定触发器的样本被错误分类,同时保持良性查询的全局标签分布不变以规避检测。为此,作者设计了一种基于元学习的攻击方法,并引入优先级感知梯度对齐策略,将梯度更新建模为椭球置信域问题,从而缓解攻击成功与分布隐蔽之间的冲突。理论上保证了在梯度不一致的情况下仍能有效优化攻击目标。在CIFAR-10-C、CIFAR-100-C和ImageNet-C数据集上,结合多种TTA协议进行了大量实验,结果表明该方法在保持与无攻击基线一致的标签分布的同时,实现了高定向攻击成功率,在无标签的TTA部署场景中难以被检测。此外,该攻击对现有防御手段表现出强鲁棒性。本文适合从事对抗性机器学习、TTA安全以及鲁棒性评估的研究人员阅读。
💡 推荐理由: TTA作为应对分布漂移的常用技术,其安全性至关重要。本文揭示了更隐蔽的样本级定向攻击,突破了现有防御的检测能力,为TTA的实际部署敲响警钟。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yutong Liu, Chenyi Wang, Ming F. Li, Qingzhao Zhang
该论文研究了协作感知(CP)系统中的信任机制安全性。协同感知允许联网自动驾驶车辆共享传感器数据并联合推理环境,现有的防御机制通过跨车辆不一致性检测和信任估计来惩罚与多数观察冲突的车辆。然而,本文指出这类防御本身引入了新的攻击面。作者提出TrustFlip攻击,通过部署真实的物理对抗物体,使良性车辆之间产生不一致的观察结果,从而被防御机制误认为是目标车辆的行为,导致其信任度下降,最终被降权或排除出协作。实验表明,该攻击在多达87.7%的场景中成功移除目标车辆,并使平均精度(AP)下降最多13%。作为初步缓解,作者提出TrustReflect——一种轻量级自反射机制,将争议区域标记为不确定并排除出信任评估,可将攻击成功率降低35-100%。该论文揭示了自动驾驶协同感知中信任机制的新漏洞,对设计更鲁棒的协作感知系统具有重要警示意义。
💡 推荐理由: 首次揭示协同感知系统中信任机制自身可被利用,导致良性车辆被错误排除,可能引发安全关键事故。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Leitao Yuan, Qinghua Mao, Daizong Liu, Kun Wang, Wenjie Wang, Yan Teng, Jing Shao, Dongrui Liu
多模态大语言模型(MLLMs)尽管性能强大,但仍易受基于迁移的目标攻击:攻击者在开源代理编码器上优化扰动,该扰动可泛化至闭源MLLMs。提升对抗迁移性的关键在于有效捕获不同模型共享的内在视觉焦点,使扰动对齐可迁移的语义线索而非代理特定行为。现有方法受限于空间域特征冗余和代理特定梯度信号,阻碍了跨模型迁移性。本文提出FRA-Attack,从统一的频率域正则化视角解决这两个挑战。在特征对齐方面,对块特征使用高通DCT目标,抑制冗余全局结构并将损失集中在承载MLLMs内在视觉焦点的高频带上。在梯度优化方面,引入频率域梯度正则化(FGR),一种模型无关的低通正则化器,仅利用几何频率坐标调节代理梯度,不涉及任何代理导出统计量,因此FGR天然模型无关,去除代理特定高频伪影的同时保留可迁移的低频方向。两者结合形成统一的频率域迁移性处理。在来自7个供应商的15个旗舰MLLM上的广泛实验表明,FRA-Attack实现了优异的跨模型迁移性,尤其在GPT-5.4、Claude-Opus-4.6和Gemini-3-flash上达到最先进性能。
💡 推荐理由: 该攻击方法揭示了当前MLLMs在对抗迁移性方面的严重脆弱性,防御者需关注频域特征对齐和梯度正则化作为潜在防御思路,并评估自研模型对类似攻击的鲁棒性。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Lujia Shen, Yuwen Pu, Shouling Ji, Changjiang Li, Xuhong Zhang 0002, Chunpeng Ge 0001, Ting Wang 0006
该论文关注Transformer架构的大型语言模型(如BERT、GPT)在自然语言处理中的广泛应用及其对文本对抗攻击的脆弱性。现有防御方法如对抗训练资源消耗大,而防御性dropout等保护有限。作者提出了一种名为“动态注意力”的新方法,专门针对Transformer架构设计,无需下游任务知识且不增加额外成本。动态注意力包含两个模块:1) 注意力修正:通过掩盖或减弱选定令牌的注意力值;2) 动态建模:动态构建候选令牌集合。大量实验表明,该方法能显著减轻对抗攻击的影响,在常用对抗攻击上比之前的方法性能提升高达33%。动态注意力的模型级设计使其易于与其他防御方法(如对抗训练)结合,进一步提升鲁棒性。此外,与其他动态建模方法相比,动态注意力保留了原始模型的最优鲁棒性空间。
💡 推荐理由: 提供了一种轻量级、无需额外成本的对抗防御方法,可直接嵌入Transformer模型,显著提升鲁棒性,且易于与其他防御技术结合,对保护LLM落地应用有参考价值。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yuxin Cao, Xi Xiao, Ruoxi Sun 0001, Derui Wang, Minhui Xue 0001, Sheng Wen
本文提出了一种名为 StyleFool 的黑盒视频对抗攻击方法,利用风格迁移技术欺骗视频分类系统。当前的黑盒攻击通常需要大量查询才能成功,导致计算开销巨大;而限制扰动的攻击易被去噪或对抗训练等防御手段抵御。StyleFool 采用无限制扰动,首先通过颜色主题邻近性选择最佳风格图像,以避免风格化视频中出现不自然细节。在定向攻击中,额外考虑目标类别置信度,通过将风格化视频移近甚至跨越决策边界来影响分类器的输出分布。然后使用无梯度方法进一步优化对抗扰动。在 UCF-101 和 HMDB-51 两个标准数据集上的大量实验表明,StyleFool 在查询次数和对现有防御的鲁棒性方面均优于现有先进对抗攻击。值得注意的是,非定向攻击中 50% 的风格化视频无需任何查询即可成功欺骗视频分类模型。此外,通过用户研究评估了不可区分性,证明 StyleFool 的对抗样本在无限制扰动下对人眼几乎不可察觉。该工作揭示了视频分类系统在风格迁移攻击下的脆弱性,为提升视频分类系统的安全性提供了新视角。
💡 推荐理由: StyleFool 提出了一种高效且鲁棒的黑盒视频对抗攻击方法,显著降低了攻击所需的查询次数,同时生成的对抗样本更自然、不易被察觉,对视频分类系统的安全性构成实际威胁,值得安全从业者关注其防御策略。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hyo Seo Kim, Gang Luo, Can Chen, Binghui Wang, Yue Duan, Ren Wang
本文提出了一种基于模式连通性(Mode Connectivity)的高效进化攻击方法 MoCo-EA,旨在解决传统进化算法在生成对抗样本时因离散交叉操作破坏对抗属性而导致效率低下的问题。核心创新在于将传统进化算法中的交叉算子替换为基于贝塞尔曲线(Bézier curve)的连续优化交叉算子。作者首先发现成功对抗扰动之间存在模式连通性,即对抗样本在高维空间中位于连续流形上,且流形上的中间点不仅能保持甚至能增强攻击效果。基于此,MoCo-EA 通过优化父本扰动之间的连续贝塞尔路径,生成新的后代扰动,避免了离散插值带来的对抗性损失。实验表明,MoCo-EA 在多个基准数据集上显著优于传统离散遗传操作,不仅收敛时间更短、查询次数更少,而且生成的对抗样本具有更高的可迁移性。该工作挑战了将对抗样本视为孤立点的传统观点,揭示了对抗空间的几何结构,为攻击生成与防御研究提供了新方向。
💡 推荐理由: MoCo-EA 通过模式连通性改进了进化攻击的效率与迁移性,可能降低黑盒攻击成本,同时启发防御者利用对抗空间结构设计更鲁棒的模型。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zehan Sun, Dingfan Chen, Songze Li
该研究首次系统性地揭示了大型语言模型(LLM)级联系统在对抗性攻击下的脆弱性。LLM级联系统通过轻量级模型处理常规查询,仅将复杂请求转发给更强大的模型,旨在平衡效率与性能、降低计算成本和延迟。然而,这种级联设计引入了新的攻击面:前端轻量模型和内部决策机制成为弱点。作者提出了一种新型攻击框架,利用级联依赖关系下的约束序列协同优化对抗后缀,同时攻击轻量模型和决策机制。该框架可适应不同能力的攻击者,实现对成本效率和准确性的可控降级。与攻击单一模型的传统方法不同,该攻击策略性地利用级联结构,显著增强了攻击效果。在多种数据集和代表性LLM级联系统上的大量实验验证了该攻击的实用性和严重性。研究结果强调亟需严格审视LLM级联系统的安全性,并呼吁关注此类设计中固有的系统性风险。
💡 推荐理由: LLM级联系统因效率优势正被广泛部署,但本研究揭示了其安全盲区:攻击者可利用级联结构同时破坏性能与成本优势,对依赖此类系统的大规模应用构成实际威胁。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Rui Wen, Mark Russinovich, Andrew Paverd, Jun Sakuma, Ahmed Salem
该论文提出了一种新型后门攻击方法 MetaBackdoor,利用 Transformer 架构中位置编码 (Positional Encoding) 的内在特性作为触发器,而不需要修改输入文本内容。现有的后门攻击大多依赖内容触发器(如特定词语、句子),容易被基于文本异常的防御机制检测。作者的核心洞察是:Transformer 模型在处理有序序列时必须编码 token 位置信息,因此输入长度相关的结构会反映在模型内部计算中,可以被用作非内容触发器。论文展示了即使简单的基于长度的位置触发器也能激活隐匿的后门行为。与之前攻击不同,MetaBackdoor 作用于可见且语义正常的输入,使后门 LLM 在满足长度条件时泄露敏感内部信息(如专有系统提示),甚至出现自激活场景——正常的多轮交互可将对话上下文推至触发区,诱导恶意工具调用行为,而无需攻击者提供触发文本。此外,MetaBackdoor 与基于内容的后门正交,可组合使用以创建更精确、更难检测的触发条件。实验证明该方法在多种 LLM 架构上有效。该工作扩展了 LLM 后门的威胁模型,揭示了位置编码这一被忽视的攻击面,对现有侧重文本异常检测的防御策略提出了挑战。
💡 推荐理由: 揭示了 LLM 位置编码可作为新型后门触发器,绕过现有基于文本内容的防御,引发系统提示泄露、恶意工具调用等安全风险,需要安全社区重新评估防御策略。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit
该论文揭示了当前大型语言模型(LLM)越狱攻击评估中的关键问题:攻击成功率(ASR)作为主要基准指标存在不稳定性。作者观察到,即使一篇顶级论文(如来自Anthropic的BoN或Microsoft Research的Crescendo)宣称在闭源模型上达到80%的ASR,但实际复现时,针对同一目标模型生成的越狱提示在10次尝试中仅能连续成功5次(50%),远低于宣称值。这导致发表论文中的ASR数字被系统性高估且无法跨论文比较。核心研究问题为:为何一个成功的越狱提示在目标模型上无法稳定复现?为回答该问题,作者系统研究了随机性在攻击评估和攻击生成两个阶段的影响,涵盖多种越狱攻击、不同规模和供应商的模型以及多种评估器(judge)。基于此,他们提出了一个新指标和两个框架:(1)CAS-eval(一致性攻击成功率评估框架),要求越狱提示在多次尝试中持续成功,实验表明采用该评估后ASR可下降多达30个百分点;(2)CAS-gen(一致性攻击生成框架),通过改进现有越狱方法,帮助恢复这30个百分点的性能损失。该研究对LLM安全评估标准和方法论有重要贡献,提醒从业者ASR作为单一指标的局限性,并提供了更稳健的评估与生成方案。适合LLM安全研究人员、红蓝队工程师以及评估基准设计者阅读。
💡 推荐理由: 揭示了LLM越狱攻击评估中ASR指标的系统性缺陷,并提供了可落地的评估与生成改进框架,有助于提高安全测试的真实性和可复现性。
🎯 建议动作: 研究跟进,将CAS-eval和CAS-gen方法纳入内部LLM安全评估流程
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zirui Kong, Youqian Zhang, Sze Yiu Chau
该论文首次揭示了具身智能机器人触觉传感器面临的安全威胁。研究团队聚焦于霍尔效应指尖传感器,发现其易受故意电磁干扰(EMI)攻击。通过注入特定电磁信号,攻击者可以诱导出显著的“幻影力”,使感知的力大小放大超过9倍,力方向偏差达到65度。这种攻击能够瘫痪基于学习的触觉分类模型,严重影响机器人的运动控制。实验表明,攻击者可以利用该漏洞迫使机器人手部压碎易碎物体或丢弃危险载荷。论文指出了现有电磁干扰防护措施在机器人触觉感知领域的缺失,并呼吁学术界和工业界共同关注这一新兴安全挑战。
💡 推荐理由: 触觉传感器是机器人安全交互的关键,但其电磁干扰攻击风险此前未被充分认知。该研究揭示了可导致物理破坏的新攻击面,对无人机、医疗机器人和工业机械臂等依赖触觉反馈的应用场景构成直接威胁。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Jung-Woo Chang, Ke Sun 0012, Nasimeh Heydaribeni, Seira Hidano, Xinyu Zhang 0003, Farinaz Koushanfar
本文提出了一种名为Magmaw的新型无线攻击方法,旨在针对基于机器学习(ML)的无线通信系统生成通用对抗扰动。现有针对ML无线系统的对抗攻击方法缺乏对源数据多模态性、常见物理层协议和无线域约束的全面考虑。Magmaw能够为通过无线信道传输的任何多模态信号生成通用对抗扰动,并引入了针对下游应用的对抗攻击新目标。为验证其鲁棒性,作者采用了广泛使用的防御机制,并通过软件定义无线电系统构建了实时无线攻击平台进行概念验证评估。实验结果表明,即使在强防御机制下,Magmaw仍能造成显著的性能下降。此外,在加密通信信道和基于信道模态的ML模型两个案例研究中进一步验证了其有效性。该研究揭示了ML无线通信系统在面对多模态通用对抗攻击时的脆弱性,对无线安全领域具有重要警示意义。
💡 推荐理由: 该研究首次系统性地提出了针对多模态无线通信系统的通用对抗攻击方法,揭示了现有ML无线系统在安全设计上的不足,对保障未来无线通信(如5G/6G)的安全性具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shuo Ju, Qingzhao Zhang, Huashan Chen, Xuheng Wang, Haotang Li, Wanqian Zhang, Feng Liu, Kebin Peng, Sen He
本文提出了一种针对基于视觉的自动驾驶系统的新型物理对抗攻击范式。现有物理攻击通常需要复杂的补丁或动态变化的图案,以在不同的视角下保持欺骗效果,而本文反其道而行之,将视角变化本身转化为攻击工具。攻击者只需在目标车辆上安装一个静态的、被动的对抗性伪装(即一种特制的车身涂装),其外观会随着相对运动而自然变化,从而在受害者车辆的感知系统中诱发持续的特征漂移。这种漂移导致系统推断出一个物理上合理但错误的轨迹(例如虚假的切入行为),进而传播到下游决策模块,触发不必要的紧急刹车。攻击无需主动干预或多视角鲁棒性优化,部署极为简便:一辆静止的伪装车辆即可使通过的自动驾驶车辆急刹车。在nuScenes数据集上的实验表明,该方法在硬刹车事件上的端到端成功率达87.5%,且对不同场景背景、受害者车速和感知模型均具有鲁棒性。
💡 推荐理由: 该攻击展示了利用自然视角变化实现低成本、高成功率物理对抗攻击的可能性,对自动驾驶安全性构成潜在威胁,值得感知安全研究人员关注。
🎯 建议动作: 研究跟进
排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Zi Liang, Ronghua Li, Yanyun Wang, Qingqing Ye, Haibo Hu
该论文提出了一种针对基于大语言模型(LLM)的智能体系统的新型攻击范式,称为 Mobius Injection,可引发基于智能体的面向服务的分布式拒绝服务(AbO-DDoS)攻击。作者发现智能体逻辑中存在的结构漏洞“语义闭合”(Semantic Closure),攻击者通过一次文本注入即可诱导智能体组件进入持续递归执行状态,将智能体节点转变为“僵尸节点”,从而消耗计算资源并放大对下游LLM基础设施的请求流量。实验在三个代表性“爪子风格”智能体和三个主流编码智能体上进行,集成12种前沿商用或开源LLM,结果显示单节点调用放大倍数可达51.0倍,多节点p95延迟膨胀高达229.1倍,且攻击性能随中毒节点数超线性增长。该攻击轻量、隐蔽(可绕过传统DDoS检测和AI安全过滤器)且高度可配置。防御方面,作者提出基于智能体组件能量(ACE)分析的主动防御机制,通过检测组件图中异常能量来识别恶意递归触发器。这篇论文适合LLM安全研究人员、AI基础设施运维人员及对抗性机器学习从业者阅读。
💡 推荐理由: 揭示了LLM智能体作为系统枢纽时被武器化发动大规模DDoS的新风险,攻击轻量隐蔽、放大效应显著,对AI服务可用性构成严重威胁。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ningfei Wang, Shaoyuan Xie, Takami Sato, Yunpeng Luo, Kaidi Xu, Qi Alfred Chen
交通标志识别(TSR)是安全自动驾驶的关键组成部分。近年来的研究揭示了TSR模型易受物理世界对抗攻击,例如低成本、高部署性的攻击能够隐藏或伪造关键交通标志。然而,现有研究主要基于学术TSR模型评估攻击效果,对真实商业TSR系统的影响尚不清楚。本文首次大规模测量了物理世界对抗攻击对商业TSR系统的实际影响。实验发现,某些学术攻击对特定商业TSR功能可实现100%的可靠攻击成功率,但整体泛化能力不足,导致平均成功率远低于预期。进一步分析表明,商业系统中普遍存在的空间记忆设计(即系统对连续帧中同一标志位置的记忆机制)是削弱攻击效果的关键因素。为此,作者设计了新的攻击成功度量,从数学上建模空间记忆对系统级攻击成功率的影响,并基于新度量重新评估现有攻击方法。通过这一框架,研究揭示了7个新发现,其中部分直接挑战了先前文献的结论(例如某些被认定为高成功率的攻击在新度量下表现不佳)。该工作填补了学术攻击与商业系统防御之间的认知鸿沟,为后续设计更鲁棒的TSR系统提供了理论基础。
💡 推荐理由: 揭示学术对抗攻击在商业TSR系统中效果严重下降,并找到关键原因空间记忆设计,为蓝队评估真实世界攻击风险提供新视角。
🎯 建议动作: 研究跟进:阅读全文理解7个新发现及新度量,评估自家TSR系统是否受空间记忆影响。
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge
本文针对音频语言模型(ALM)的越狱攻击展开研究。现有的越狱攻击通常在整个音频波形上密集地优化扰动,以诱使ALM生成不安全的内容。作者首先通过分析ALM中token对齐梯度的结构,发现梯度能量在音频token上高度不均匀,即只有少量token对应的音频区域主导了优化信号。基于这一观察,提出了Token-Aware梯度优化(TAGO)方法,该方法在每次迭代中仅保留与高梯度能量音频token对齐的波形梯度,而屏蔽其余梯度,从而实现稀疏越狱优化。在三个ALM(包括Qwen3-Omni)上的实验表明,TAGO在显著稀疏化(如token保留率0.25)时仍能保持较高的攻击成功率(例如Qwen3-Omni上ASR_l为86%,而完全保留token时为87%),证明了密集波形更新在很大程度上是冗余的。该工作揭示了token级别异质梯度结构,为未来ALM越狱和安全对齐研究提供了新方向,并建议防御者关注此类稀疏攻击的潜在威胁。
💡 推荐理由: 该研究揭示了音频语言模型越狱攻击中梯度结构的非均匀性,并证明只需少量token即可实现高效攻击,这提示防御者不能仅依赖全波形扰动防御,需开发针对token级稀疏扰动的检测与缓解措施。
🎯 建议动作: 研究跟进,评估自身ALM系统对此类稀疏攻击的脆弱性
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhaoxi Zhang 0001, Xiaomei Zhang 0001, Yanjun Zhang, He Zhang 0012, Shirui Pan, Bo Liu 0001, Asif Gill, Leo Yu Zhang
本文研究字符级扰动对大型语言模型(LLM)水印技术的破坏效果。水印技术被广泛用于追踪LLM生成内容,防止滥用。作者系统分析了多种字符级扰动(如拼写错误、同音替换、随机插入等)对当前主流水印方案(如基于n-gram的Aaronson水印、基于软水印的Kirchenbauer方案等)的鲁棒性影响。实验在多个开源LLM(如Llama2、OPT)上进行,结果表明,简单的字符级扰动即可显著降低水印检测的准确率,甚至完全绕过检测。作者进一步探讨了结合语义保持的对抗性扰动,发现更难防御。本文揭示了LLM水印在字符层面的脆弱性,对内容追踪与反滥用领域具有警示意义。
💡 推荐理由: LLM水印是防止AI生成内容滥用的重要手段,但本文揭示其易被字符级扰动绕过,威胁内容溯源与检测机制的有效性。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Maximilian Thang, Stjepan Picek, Ahmad-Reza Sadeghi
该论文提出了 NeuroStrike,一种针对对齐大型语言模型(LLM)的新型攻击框架。作者发现,当前的安全对齐技术(如监督微调和基于人类反馈的强化学习)会在模型中引入稀疏的“安全神经元”,这些神经元负责检测和抑制有害输入。NeuroStrike 利用这一根本性漏洞,通过在前馈激活分析中识别这些安全神经元,并在推理过程中将其剪枝,从而禁用安全机制。在白盒设置中,该方法只需移除目标层中不到 0.6% 的神经元,即可在 20 多个开源 LLM 上达到平均 76.9% 的攻击成功率(ASR)。此外,NeuroStrike 还扩展到多模态 LLM,在 unsafe 图像输入上实现了 100% ASR。在黑盒设置中,作者提出了首个 LLM 分析攻击,利用安全神经元的可迁移性,在开源代理模型上训练对抗性提示生成器,然后部署到黑盒及专有模型上。实验表明,该黑盒攻击在 5 个黑盒模型(包括 Google Gemini 系列)上平均 ASR 为 63.7%。安全神经元在架构间有效迁移,使 11 个微调模型和 5 个蒸馏模型的 ASR 分别提升至 78.5% 和 77.7%。该工作揭示了当前对齐技术的脆弱性,并强调了安全神经元的可迁移性带来的广泛威胁。
💡 推荐理由: NeuroStrike 揭示了对齐 LLM 中安全神经元的可迁移性和脆弱性,表明仅依赖稀疏神经元的安全机制极易被绕过。该攻击泛化到多种模型和输入形式,对 LLM 的安全部署构成严重威胁,值得安全从业者高度关注。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Reachal Wang, Yuqi Jia, Neil Zhenqiang Gong
本文提出了一种针对多源数据LLM应用的新型提示注入攻击方法ObliInjection。在现实场景中,LLM的输入数据往往来自多个不同来源,每个来源贡献一个输入段,攻击者仅能控制其中部分段,且通常不知道各段在输入中的排列顺序。现有的提示注入攻击要么假设整个输入数据来自单一攻击者控制的来源,要么忽略多源数据中段顺序的不确定性,因此在多源场景下成功率有限。ObliInjection通过两项关键技术创新解决这一挑战:一是“顺序无关损失”(order-oblivious loss),该损失函数量化了无论干净段和污染段如何排列,LLM完成攻击者选定任务的可能性;二是“顺序GCG算法”(orderGCG),专门设计用于最小化顺序无关损失并优化污染段的内容。实验涵盖了三个不同应用领域的数据集和十二种LLM,结果表明即使只污染输入中6-100个段中的一个,ObliInjection也能高效实施攻击。论文提供了代码和数据开源链接。本研究揭示了多源数据LLM应用中一个被忽视的安全漏洞,对LLM安全防护具有重要参考价值。
💡 推荐理由: 提示注入是LLM安全的核心威胁之一,而多源数据场景普遍存在于各类LLM Agent和工具链中。ObliInjection首次系统地研究了段顺序不确定下的注入攻击,该攻击隐蔽性强且成功率较高,对依赖多源输入的LLM应用构成实际风险。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Kemal Derya, Berk Sunar
本文针对大型语言模型(LLM)的越狱攻击防御展开研究,重点重访了近期提出的JBShield防御机制。JBShield通过检测两种概念信号(毒性概念和越狱概念)来识别恶意提示,在部分设置下声称攻击成功率为0%。然而,本文设计了一种新的自适应攻击方法JB-GCG,它修改了贪婪坐标梯度(GCG)攻击的目标函数,结合了两个项:一是通过计算拒绝方向与隐藏状态表示的余弦相似度来抑制拒绝方向,二是利用JBShield自身的毒性概念分数进行正则化。在Llama-3-8B模型上的五种配置中,JB-GCG实现了平均46.2%的攻击成功率,最强设置下达到53.4%。攻击对JBShield的增强版本JBShield-M同样有效,成功率高达30.7%。实验表明,该攻击在多次重新校准后依然有效,确认了漏洞是结构性的而非校准特定。进一步分析发现,越狱表示的余弦相似度特征在拒绝方向指纹空间中占据了一个独特区域,既不属于无害提示也不属于有害提示。基于此,作者提出了表示轨迹验证(RTV)新防御方法,利用多层拒绝方向指纹进行马氏距离异常检测,对提出的攻击实现了0.99的AUROC。最后,作者设计了针对RTV的完全白盒自适应攻击,最佳攻击在计算成本增加13倍的情况下仅达到7%的成功率。结果表明,非自适应检测的强性能并不意味着在自适应威胁模型下具有鲁棒性,多层表示一致性比单层概念相似性更适合作为越狱检测的基础。
💡 推荐理由: 该研究揭示了现有越狱防御在自适应攻击下的脆弱性,强调了评估防御时必须考虑自适应威胁模型,为LLM安全社区提供了更可靠的防御设计方向。
🎯 建议动作: 建议安全研究人员阅读原文,了解自适应攻击细节,并评估自身LLM防御系统对类似攻击的鲁棒性。
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Han Liu, Shanghao Shi, Yevgeniy Vorobeychik, Chongjie Zhang, Ning Zhang
本文系统研究了对抗扰动是否具有低秩结构。受Low-Rank Adaptation (LoRA)启发——LoRA通过低秩矩阵更新神经网络层显著提升了大型语言模型的训练效率——作者提出对抗样本的生成也是优化过程,因此自然产生疑问:对抗扰动是否也呈现低秩结构?通过理论分析和多种攻击方法、模型架构、数据集上的大量实验,本文证实对抗扰动确实具有内在低秩性质。基于这一发现,作者聚焦于利用低秩性质改进黑盒对抗攻击的效率与有效性,因为黑盒攻击通常面临查询次数过多的问题。方法分为两步:首先使用参考模型和辅助数据指导梯度投影到低维子空间;然后将黑盒攻击中的扰动搜索限制在该低秩子空间内,从而大幅提升攻击效率和效果。实验覆盖多种攻击方法、基准模型、数据集和威胁模型,结果表明所提出的低秩对抗攻击相比传统方法在全方面取得显著且一致的性能提升。该研究揭示了对抗扰动与模型更新之间的结构相似性,为设计更高效的对抗攻击与防御策略提供了新视角。
💡 推荐理由: 揭示对抗扰动的低秩结构,为黑盒攻击效率提升提供新思路,间接启示防御者关注低维扰动空间的检测与防御。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ping He, Yifan Xia, Xuhong Zhang 0002, Shouling Ji
本文针对基于机器学习的Android恶意软件检测(AMD)方法,提出了一种名为AdvDroidZero的高效查询式攻击框架。当前对该类方法的对抗样本攻击大多依赖较强假设,如攻击者知晓特征空间、模型参数或训练数据集等知识,这在现实攻击场景中往往不成立。AdvDroidZero在零知识设置下运作,即攻击者无需提前了解目标模型的内部细节,仅通过黑盒查询即可生成对抗样本。该框架通过设计高效的查询策略和针对性扰动生成方法,显著降低了攻击所需的查询次数,同时保持了高攻击成功率。在多个主流基于机器学习的AMD方法(包括最新技术)以及真实世界反病毒产品上的广泛评估表明,AdvDroidZero能够有效规避检测,揭示了当前检测方法的脆弱性。论文分析了攻击成本与效果,并讨论了可能的防御方向。本研究对安全社区理解对抗性机器学习威胁具有重要意义,尤其针对移动安全领域的现实攻击场景。
💡 推荐理由: 该攻击在零知识条件下(更贴近真实攻击者能力)仍能高效绕过主流ML检测和真实反病毒产品,迫使安全团队重新评估现有Android恶意软件检测方案的稳健性。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Christopher DiPalma, Ningfei Wang, Takami Sato, Qi Alfred Chen
该论文聚焦于自动驾驶系统中基于摄像头的感知模块在对抗性攻击下的安全性问题。研究团队设计了一种实用的对抗性贴片攻击方法,专门针对基于摄像头的障碍物检测系统。作者发现箱式卡车的后部是一个有效的攻击向量,通过在卡车后部粘贴特制的对抗性图案,可以欺骗障碍物检测算法使其无法正确识别。为了增强攻击的鲁棒性,该方法考虑了攻击场景中多种可能的输入帧(例如不同角度、光照条件等),使得攻击在真实世界中更加稳定。论文通过模拟器中的视频演示展示了该攻击能够在代表性的自动驾驶系统(如端到端驾驶模型)上引发连续的严重后果,例如导致车辆未能及时刹车或改变路径。研究揭示了当前基于视觉的感知系统在面对精心设计的物理对抗样本时的脆弱性,强调了开发更鲁棒感知算法的迫切需求。该工作为自动驾驶安全领域提供了重要的攻击面分析和安全启示。
💡 推荐理由: 自动驾驶安全直接关系到人身安全,该研究揭示了基于摄像头的感知系统在物理世界中的严重漏洞,可能被用于诱导碰撞等事故。
🎯 建议动作: 研究跟进
排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.4)