#defense

共收录 23 条相关安全情报。

← 返回所有主题
👥 作者: Shinan Liu, Xiang Cheng, Hanchao Yang, Yuanchao Shu, Xiaoran Weng, Ping Guo 0007, Kexiong Curtis Zeng, Gang Wang 0011, Yaling Yang

该论文提出了一种基于恒星观测的GPS欺骗攻击防御方法,利用现成的GPS芯片和可见光传感器(例如摄像头)检测定位信号的一致性。传统GPS欺骗攻击通过伪造卫星信号使接收机产生错误定位,而本文方法通过比对GPS报告的定位与基于恒星位置的天文观测结果来识别欺骗。恒星位置是固定且难以伪造的,因此任何与恒星位置不一致的GPS定位都将被标记为潜在攻击。作者使用现成的GPS接收机和商用相机实现原型系统,实验表明该方法能够有效检测多种类型的GPS欺骗攻击,且误报率低。该研究为GPS安全提供了一种低成本、易部署的补充防护手段。

💡 推荐理由: GPS欺骗攻击对自动驾驶、无人机、海运等关键基础设施构成严重威胁,现有防御方案多依赖专用硬件或网络辅助,成本高。本文利用常见硬件(相机+GPS芯片)提供了一种新颖、低成本的检测思路。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 5.5
Conf: 50%
👥 作者: Pengrun Huang, Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri

本文研究了大型语言模型(LLM)在领域特定数据集上微调时面临的数据集属性泄露风险。近期研究表明,通过属性推断攻击(property inference attacks),攻击者能够有效提取模型训练数据集中的敏感属性(如数据集的整体分布特征),从而构成保密性威胁。现有防御方法主要依赖于修改训练数据分布,这需要访问原始数据并重新训练模型,限制了其在数据不可用或模型已部署场景下的适用性。本文提出基于对齐(alignment)的防御方法,通过后训练对齐(post-training alignment)重塑模型输出分布,使其朝向目标属性比例,而无需修改训练数据或重新训练。具体地,作者将两种广泛使用的基于人类反馈的强化学习(RLHF)框架——直接偏好优化(DPO)和组相对策略优化(GRPO)——适配为防御方法:DPO通过构造偏好对(将属性比例正确的输出作为偏好样本),GRPO通过定义特定奖励函数来惩罚属性泄露。综合实验表明,基于对齐的防御能有效缓解属性推断攻击,同时在模型效用与隐私保护之间取得良好平衡。本文的主要贡献在于首次将对齐技术应用于防御属性推断攻击,提供了无需数据访问的轻量级解决方案,对保护微调数据的隐私具有重要实践意义。适合关注LLM隐私保护、对抗性攻击防御的研究人员和工程师阅读。

💡 推荐理由: 为LLM微调场景下的数据集属性泄露问题提供了一种无需重新训练、无需原始数据即可部署的防御方案,填补了现有防御在数据不可用时的空白。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Sheng Wan, Dashan Gao, Hanlin Gu, Lixin Fan, Daning Hu, Qiang Yang

该论文首次系统性地研究了基于logit的联邦学习(FL)中隐藏的隐私风险。传统的参数化FL通过交换模型权重或梯度来保护数据隐私,而新兴的logit-based FL方法则在公共数据上共享模型输出(logits),从而促进模型异构性、降低通信开销并增强客户隐私。然而,这些方法的隐私风险被严重忽视。本文提出并分析了一种半诚实服务器(对手)通过学习训练过程中的历史logits来窃取客户私有模型的自适应模型窃取攻击(AdaMSA)。作者从理论和实验两方面证明了这一隐私风险的存在,即使在公共数据与私有数据无关的情况下,风险依然存在。为应对这一威胁,他们提出了一种简单而有效的防御策略:在传输logits时添加扰动,方向是使隐私风险最小化同时最大限度保持训练性能。实验结果表明,AdaMSA能够有效窃取模型,而防御策略能在少量影响性能的前提下显著降低隐私泄露。该研究为logit-based FL的安全性提供了重要理论基础和实用解决方案,并提醒社区注意这一被忽视的隐私漏洞。

💡 推荐理由: 联邦学习是保护数据隐私的关键技术,logit-based方法因其优势被广泛采用,但其隐私风险尚未被充分认识。本研究揭示了即使公共数据无关,攻击者仍能窃取私有模型,并提供了可落地的防御方案,对使用logit-based FL的企业和研究机构具有高度警示意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Abu Taib Mohammed Shahjahan, Mohammad Mannan, Abdessamad Ben Hamza, Amr Youssef

该论文聚焦于深度伪造图像检测器在对抗攻击下的鲁棒性问题。尽管近年来提升检测器对未见生成模型泛化能力的研究取得进展,但检测器仍易受对抗样本攻击。作者复现了Abdullah等人(IEEE SP 2024)对八种检测器的评估,并额外测试了七种最先进检测器,均发现攻击下性能显著下降。为此,论文提出一个不依赖对抗训练的统一框架,融合三种互补设计:1)基于离散余弦变换(DCT)的四阶矩池化,在频域建立高阶统计建模;2)从噪声残差中提取内容无关特征;3)通过分块语义破坏实现跨场景泛化。核心洞察是对抗攻击主要利用低阶统计和视觉语义,而高阶残差-频率特征(尤其是峰度)几乎不受约束。大量实验表明,该方法在六种不同架构的检测器上持续提升鲁棒性,在现有对抗基准测试中将召回率退化降低最多88.9%,并将最佳检测器(Yang等人,IEEE CVPR 2025)的攻击下准确率从81.9%提升至97.15%。该工作为提升深度伪造检测对抗鲁棒性提供了通用的、架构无关的解决思路。

💡 推荐理由: 深度伪造检测器在对抗攻击下脆弱性是实际部署的关键隐患;该方法无需对抗训练即可显著提升鲁棒性,对蓝队构建可靠检测体系具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hiskias Dingeto, William Leeney

该论文提出了AgentRedBench,一个动态的LLM驱动的红队基准测试,专门针对通过SaaS集成(如Gmail、Salesforce、Jira等)使用工具调用的LLM智能体面临的间接提示注入威胁。现有基准测试覆盖的集成种类有限,且攻击载荷重复使用;开源防御模型多基于聊天数据训练,而非工具响应内容。AgentRedBench包含215个微妙的未授权场景,涵盖9个功能家族、24个企业集成和5种攻击类型。对八个模型(Anthropic、OpenAI、Google)的评估显示,无防御时的攻击成功率(ASR)介于32%(Claude Sonnet 4.6)到81%(Gemini 3 Flash)之间。为了保持场景集不进入训练语料并确保ASR的时效性,作者开源了代码、集成模式和AgentRedGuard模型;规范场景通过维护者中介渠道进行版本管理。AgentRedGuard是一个基于多样化的集成对抗工具响应内容训练的防御模型,将面板ASR从69.9%降至2.4%,误报率仅为0.37%,在检测率和误报率两方面均优于所有开源基线(如Llama Guard、PromptGuard 2、ProtectAI)。跨集成和跨攻击类型的保留测试证实了性能迁移能力。

💡 推荐理由: LLM智能体在真实生产环境中面临间接提示注入的严重威胁,现有基准和防御不足。AgentRedBench提供了更全面的评估框架,AgentRedGuard实现了极低误报率下的高效检测,对保护企业SaaS集成场景有直接价值。

🎯 建议动作: 研究跟进并评估将AgentRedGuard集成到内部LLM智能体防护流程中

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 14.5
Conf: 50%
👥 作者: Chong Fu 0002, Xuhong Zhang 0002, Shouling Ji, Jinyin Chen, Jingzheng Wu, Shanqing Guo, Jun Zhou 0011, Alex X. Liu, Ting Wang 0006

本文研究垂直联邦学习(VFL)中的标签推断攻击与防御。VFL是一种多方协作训练机器学习模型的框架,其中各方拥有垂直分割的数据(即不同特征),而标签通常仅由聚合服务器(标签所有者)持有,其他参与方无法直接访问。然而,近期研究表明,攻击者可以利用服务器返回给底层模型的梯度信息,结合少量辅助标签(仅需训练数据中极小子集),推断出其他参与方的私有标签。这种攻击被称为VFL中的标签推断攻击。为应对这一威胁,作者提出了一种名为KD_k(基于k-匿名性的知识蒸馏)的新型防御框架。该框架结合了知识蒸馏和k-匿名技术,旨在在不显著影响VFL整体模型准确性的前提下,有效降低标签推断攻击的成功率。通过详尽的实验评估,作者展示了应用KD_k后,所分析的多种标签推断攻击的性能持续下降,甚至降低超过60%,同时VFL的模型精度几乎保持不变。研究贡献在于提出了一种实用且高效的防御方案,平衡了隐私保护与模型效用。适合读者包括联邦学习研究者、隐私保护领域从业人员以及VFL系统的安全设计者。

💡 推荐理由: 垂直联邦学习广泛应用于医疗、金融等敏感数据场景,标签隐私是核心安全假设。该研究揭示了现有防御的不足,并提供了可落地的防护方案,对保护VFL中的标签机密性具有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Guoming Zhang, Xiaoyu Ji 0001, Xinfeng Li, Gang Qu 0001, Wenyuan Xu 0001

本文关注针对语音助手的 DolphinAttack(不可听语音命令攻击),该攻击将可听语音调制到超声波上,从而无声地注入恶意命令,例如控制智能门锁或音箱。由于攻击利用了超声波的人耳不可听特性,且不需要物理接触,传统方法难以防御。现有防御方案通常需要修改麦克风硬件,成本高且兼容性差。为此,作者提出 EarArray,一种轻量级的软件防御方法,无需额外硬件或硬件改动,仅利用智能设备上已有的多个麦克风阵列。其核心原理是:超声波在空气中传播时衰减速度比可听声更快,因此通过分析多个麦克风接收到的信号衰减率,可以区分正常可听声命令和调制的不可听命令。同时,基于信号到达不同麦克风的时间差和能量差异,EarArray 还能估计攻击者的方向。作者建立了声音传播模型,并在两个特制的麦克风阵列上实现了原型系统。实验结果表明,EarArray 检测不可听语音命令的准确率达到 99%,攻击方向识别准确率达到 97.89%。该工作为抵御超声波类隐蔽攻击提供了实用、低成本的解决方案,尤其适合集成在现有智能音箱、手机等设备中。

💡 推荐理由: DolphinAttack 对各类语音助手构成严重威胁,而 EarArray 仅通过软件算法即可高精度检测和定位攻击,无需硬件修改,具有高实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Huanli Gong, Zhipeng Wei, Yu Fu, Haz Sameen Shahgir, Ananya Gupta, Yue Dong, N. Benjamin Erichson

多轮越狱攻击(Multi-turn Jailbreak Attacks)利用辅助评判模型(Judge Model)的反馈信号来迭代优化对抗性提示,逐步突破大语言模型(LLM)的安全防护。现有防御措施主要针对单轮响应或最终输出进行检测与阻断,但未能切断攻击者利用中间交互获取评判信息的闭环,导致攻击者仍能从辅助模型的反馈中提炼出提示改进方向。本文提出 D-Judge——一种语义保持的输出重写防御方法。D-Judge 在受害者 LLM 的响应被攻击者的评判模型评估之前,直接干预该循环,对响应进行重写。重写后的响应在语义上与原始响应等价,但能使评判模型给出不同的有害性分数,从而扭曲攻击者的反馈信号。攻击者的提示优化过程随后会针对一个失真的攻击进度信号进行,使得后续查询偏离有效路径。为提升 D-Judge 生成此类重写的能力,研究者构建了一个包含语义等价但评判分数不同的响应配对数据集,并采用监督微调(Supervised Fine-Tuning)后接直接偏好优化(Direct Preference Optimization)进行训练。在 HarmBench 基准上的实验表明,D-Judge 在保持良性任务性能的同时,显著降低了当前最先进多轮越狱攻击的成功率。该方法主要贡献在于:(1) 提出一种新的防御视角——中断攻击者的反馈闭环而非仅检测有害内容;(2) 设计了语义保持的重写机制以保持可用性;(3) 展示了通过偏好优化训练重写模型的有效性。适合关注 LLM 安全防御、对抗性攻击与防御的研究者和安全工程师阅读。

💡 推荐理由: 多轮越狱攻击是当前 LLM 安全的主要威胁之一,D-Judge 首次提出通过破坏攻击者反馈循环来进行主动防御,极具创新性,且实验证明了其有效性,为安全从业者提供了新的防御思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Shuhao Zhang, Jiarui Li, Qi Cao, Ruiyi Zhang, Pengtao Xie

本文针对提示注入攻击的防御问题,指出现有检测器存在异质性:每个检测器在不同攻击类型上表现各异,没有单一检测器始终可靠。然而,现有系统仍采用固定单检测器流水线,将每个请求都交给同一个检测器处理,从而暴露于其盲区。作者提出将防御重新定义为检测器分配问题:给定一个异构检测器池,针对每个请求决定运行哪些检测器,以及是否升级到LLM法官。为此,他们提出了SCOUT(Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage)框架,通过预测每个检测器在类似历史输入上的样本级可靠性和延迟,实现动态分配决策,并向外暴露一个安全-效用阈值供操作员调节(效用包括良性通过率和墙钟时间)。为了评估该设置,他们构建了SCOUT-450基准,该基准包含了结构复杂、面向代理的注入攻击,这些攻击在旧的提示注入数据集中代表性不足。在SCOUT-450上,与始终启用GPT-4o法官相比,安全导向的工作点将攻击成功率降低46%,总墙钟时间减少40%,而良性效用仅下降5.1个百分点。SCOUT还能迁移到三个外部基准(BIPIA、IPI、IHEval),改进了安全-效用前沿。

💡 推荐理由: 该工作提出了一个新颖的防御范式,通过预测性检测器分配替代固定流水线,显著提升安全性与效率,尤其适用于需要多步骤推理的Agent场景。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Nima Dorzhiev, Peng Liu

本文针对大型语言模型(LLM)智能体面临的提示注入攻击,提出了一种增强的多态提示组装(PPA)防御方法。原始的PPA通过从固定池中随机选择分隔符对来隔离用户输入与系统指令,但存在静态池复用导致的“爆炸半径”漏洞:一旦某个分隔符泄露,可在后续请求中被利用。作者提出动态、按请求生成分隔符的方法,利用基于时间戳、会话标识符和加密随机数的域分隔SHA-256摘要,为每个组装提示生成唯一的(BEGIN, END)金丝雀对,从而将泄露暴露限制在单个请求内。在Llama-3.3-70B-Instruct-Turbo模型上针对16种注入载荷进行评估,并在DeepSeek-V4-Flash模型上进行跨模型验证。针对M1混淆载荷(leet speak加紧迫性),动态模式将攻击成功率(ASR)从0.88降至0.38,实现2.3倍的缓解效果,且95% Wilson置信区间无重叠,具有统计显著性。针对format_breakout_salad攻击,静态模式下的分隔符泄露率(0.467)在动态模式下完全消除(0.000),证实了爆炸半径的减小。该实现无需模型微调,每个请求仅增加2.7微秒的提示组装开销,且向后兼容现有PPA SDK。该研究为LLM智能体安全提供了实用、高效的防御增强方案。

💡 推荐理由: 提示注入攻击是LLM应用的核心威胁,本文提出的动态分隔符生成方法在不牺牲性能的前提下显著降低攻击成功率,并消除静态池复用漏洞,对部署LLM智能体的团队具有直接防御价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yinyuan Zhang, Cuiying Gao, Yueming Wu 0001, Shihan Dou, Cong Wu 0003, Ying Zhang 0066, Wei Yuan 0001, Yang Liu 0003

本文提出了一种名为“Fighting Fire with Fire”的连续攻击方法,用于对抗Android恶意软件检测系统。研究背景是当前Android恶意软件检测模型容易受到对抗样本攻击,而现有的防御方法往往被动且效果有限。核心问题是如何主动且持续地生成对抗样本以训练更鲁棒的检测模型。方法上,作者设计了一种迭代攻击框架,能够在检测模型不断更新的过程中持续生成高效对抗样本,形成攻击与防御的博弈。实验表明,该方法能显著降低多种主流检测模型(如Drebin、MalDozer)的准确率,并证明通过这种连续攻击训练出的模型在对抗性上比传统对抗训练更具鲁棒性。主要贡献包括:1) 首次提出连续攻击范式;2) 揭示了静态对抗训练的局限性;3) 提供了一种新的评估检测模型鲁棒性的方法。适合安全研究人员及Android安全工程师阅读。

💡 推荐理由: 对抗攻击是安全模型部署的主要威胁,本文提出的连续攻击方法能帮助蓝队更真实地评估和增强检测模型的鲁棒性,具有直接防御价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yilan Gao, Sida Huang, Hongyuan Zhang, Xuelong Li

本文针对文本到图像生成模型(如 Stable Diffusion)在作为云端 API 服务部署时面临的模型窃取攻击展开研究。攻击者可以通过反复查询 API 收集大量生成的合成图像,并用这些图像训练私有替代模型,从而实现未经授权的知识蒸馏和能力复制,而无需访问原始模型权重。现有防御方法难以在保持输出图像视觉质量、提供显式扰动幅度控制以及高效处理大规模输出之间取得平衡。为此,作者提出了一种基于单次生成器(single-pass)的保护框架 WaveGuard。WaveGuard 采用频率感知的扰动生成器,在用户指定的扰动预算下对每张合成图像注入结构化、不可感知的扰动。这些扰动对于正常观看者几乎不可见,但能显著降低受保护图像作为训练数据对未授权学生模型的有效性。在 WikiArt 数据集上的合成输出蒸馏实验表明,WaveGuard 在有效性、保真度和效率三者之间取得了良好权衡,实现了显式的不可感知性控制,并大幅提升了保护效率。该方法不需要修改原始生成模型,仅需在输出图像上叠加扰动,可无缝集成到现有 API 管道中。

💡 推荐理由: 随着生成式AI服务商业化,模型窃取成为重大安全威胁。本文提出一种实用、高效的防御方案,在不影响用户体验的前提下干扰攻击者训练替代模型,对保护商业模型知识产权具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yasmine Hayder

知识图谱(KG)作为链接数据的强大表示,具有灵活性、语义丰富性,并支持知识丰富化和推理,帮助数据所有者组织和利用异构数据提供个性化服务。然而,真实世界的知识图谱往往不完整,隐藏了真实事实或缺失有价值信息。知识图谱嵌入(KGE)技术常用于推断缺失信息,但基于KGE的推理可能无意中暴露敏感用户属性,即使此类数据未显式存储。本文研究了KGE推理带来的隐私风险,重点关注属性推断攻击:攻击者试图从看似非敏感的输出中推断用户敏感属性。我们提出并评估了一个框架,通过对KGE输出应用后处理消毒技术来缓解这些隐私风险。初步结果表明,此类攻击对KGE模型输出有效,并探索了采用随机化方法时推荐质量与隐私保护之间的权衡,突出了未来需要尝试更先进技术以解决该问题的必要性。

💡 推荐理由: 揭示知识图谱嵌入在推理过程中可能泄露用户敏感属性的隐私风险,为防御方设计隐私保护机制提供依据。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Lujia Shen, Yuwen Pu, Shouling Ji, Changjiang Li, Xuhong Zhang 0002, Chunpeng Ge 0001, Ting Wang 0006

该论文关注Transformer架构的大型语言模型(如BERT、GPT)在自然语言处理中的广泛应用及其对文本对抗攻击的脆弱性。现有防御方法如对抗训练资源消耗大,而防御性dropout等保护有限。作者提出了一种名为“动态注意力”的新方法,专门针对Transformer架构设计,无需下游任务知识且不增加额外成本。动态注意力包含两个模块:1) 注意力修正:通过掩盖或减弱选定令牌的注意力值;2) 动态建模:动态构建候选令牌集合。大量实验表明,该方法能显著减轻对抗攻击的影响,在常用对抗攻击上比之前的方法性能提升高达33%。动态注意力的模型级设计使其易于与其他防御方法(如对抗训练)结合,进一步提升鲁棒性。此外,与其他动态建模方法相比,动态注意力保留了原始模型的最优鲁棒性空间。

💡 推荐理由: 提供了一种轻量级、无需额外成本的对抗防御方法,可直接嵌入Transformer模型,显著提升鲁棒性,且易于与其他防御技术结合,对保护LLM落地应用有参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jiahe Guo, Xiangran Guo, Jiaxuan Chen, Weixiang Zhao, Yanyan Zhao, Yutai Hou, Qianchao Wang, Dandan Tu, Bing Qin

多模态大语言模型(MLLM)在文本模态中学习到的安全能力往往无法泛化到语义等价的非文本输入(如图像、视频),导致持续的多模态安全差距。本文从表示几何的角度研究这一现象,通过分析文本对齐的拒绝方向(refusal direction)和模态引起的漂移方向(drift direction),发现多模态输入会压缩沿拒绝方向的可分离性,使得该方向不再可靠地识别和拒绝有害输入,作者将此失效模式命名为“安全几何崩溃”(Safety Geometry Collapse)。为了量化该崩溃,论文提出了条件拒绝可分离性(conditional refusal separability)指标,并证明模态漂移越强,拒绝可分离性越弱,攻击成功率越高。通过固定强度的激活干预实验,作者验证了模态漂移的因果作用:沿估计的漂移方向反向干预可以恢复拒绝可分离性并提升多模态安全性。有趣的是,在漂移校正后,模型展现出自我纠正(self-rectification)现象,即在前向传播过程中自动恢复识别和拒绝有害多模态输入的能力,该效应还提供了模型对输入危害程度的内部信号。基于这一信号,作者提出ReGap(Rectify Gap),一种无需训练的推理时自适应漂移校正方法。在多个多模态安全基准和实用基准上的实验表明,ReGap能够显著提升MLLM的安全性,且不损害通用能力。该研究揭示了表示级别的模态对齐对于实时安全改进和构建更安全可靠MLLM的关键作用。

💡 推荐理由: 首次从表示几何角度揭示多模态安全差距的根本原因,并提出无需重训练的推理时防御方法,对当前多模态大模型的安全部署具有直接参考价值。

🎯 建议动作: 研究跟进:建议安全研究团队复现论文核心实验,评估ReGap在自有场景下的有效性,并探索其与现有安全对齐技术的结合

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jinseob Jeong, Dongkwan Kim 0001, Joon-Ha Jang, Juhwan Noh, Changhun Song, Yongdae Kim

该论文针对无人机系统面临的新型声学注入攻击进行了系统性研究,旨在揭示此类攻击的根本原理并设计相应的恢复机制。作者首先分析了无人机的惯性测量单元(IMU)在受到声波干扰时可能产生的异常输出,这种干扰可导致无人机姿态估计错误,进而影响飞行稳定性。通过建立声学注入的物理模型,论文明确了攻击频率、振幅与IMU误读之间的数学关系。在此基础上,提出了一种基于多传感器融合和异常检测的恢复方法,该方法利用加速度计与陀螺仪的冗余特性,在检测到声学干扰后动态调整传感器权重,并采用卡尔曼滤波对姿态进行修正。实验在多种商用无人机平台上进行,表明该方法能在不同声学攻击场景下有效恢复姿态估计精度,将飞行偏差降低80%以上。该研究不仅深化了对声学侧信道攻击的理解,还为构建鲁棒的无人机控制系统提供了实用策略。

💡 推荐理由: 无人机在物流、巡检等场景日益普及,声学注入攻击可低成本干扰其飞行安全。本文提供了攻击原理分析与可落地的检测恢复方法,对防御方提升无人机抗干扰能力有重要参考价值。

🎯 建议动作: 研究跟进,评估该方法在自有无人机平台上的适用性。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yingjie Zhang, Tong Liu 0027, Zhe Zhao 0007, Guozhu Meng, Kai Chen 0012

该论文研究了大型语言模型(LLM)在面对越狱攻击时的脆弱性,发现了一个关键问题:在响应生成过程中,LLM区分安全与有害输出的能力会逐渐下降。实验表明,随着生成的进行,安全响应和有害响应的隐藏状态之间的可分离性不断减弱,这种“判别性消失”迫使模型在生成早期就做出合规性判断,从而限制了其识别逐渐形成的恶意意图的能力,导致安全微调方法在平衡安全性与实用性时失效,并无法察觉隐藏恶意。为了解决这一问题,论文提出了DEEPALIGN防御框架,通过在响应生成的中间点应用对比隐藏状态引导(contrastive hidden-state steering),增强有害与良性隐藏状态之间的分离,从而在整个生成过程中实现持续的内在毒性检测与干预。在多种不同架构和规模的LLM上的实验表明,DEEPALIGN能够将9种不同越狱攻击的成功率降至接近零或最低,同时保持模型能力并减少过度拒绝。配备DEEPALIGN的模型在拒绝具有挑战性的良性查询时错误率降低高达3.5%,标准任务性能下降不到1%,实现了安全-效用帕累托前沿的重大进步。

💡 推荐理由: 该研究揭示了LLM安全微调的根本缺陷,即生成过程中判别能力的消失,并提供了可落地的防御框架DEEPALIGN,显著提升安全-效用平衡,对AI安全领域具有重要启发。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 11.5
Conf: 50%
👥 作者: Licheng Pan, Yunsheng Lu, Jiexi Liu 0005, Jialing Tao, Haozhe Feng, Hui Xue 0001, Zhixuan Chu, Kui Ren 0001

本文针对大语言模型(LLM)的“越狱”攻击机制展开因果分析研究。现有研究主要通过对潜在表示的探测来分析越狱提示,但往往忽略了可解释提示特征与越狱发生之间的因果关系。为此,作者提出了Causal Analyst框架,将LLM集成到数据驱动的因果发现中,以识别越狱的直接原因,并将其分别用于攻击与防御。该框架首先构建了一个包含35k次越狱尝试的数据集,涵盖7个LLM、100个攻击模板和50个有害查询,并人工标注了37个可读的提示特征。随后,通过联合训练基于LLM的提示编码和基于图神经网络的因果图学习,重建了从提示特征到越狱响应的因果通路。分析发现,“正面角色”(Positive Character)和“任务步骤数”(Number of Task Steps)等特定特征是越狱的直接因果驱动因素。基于这些因果洞察,作者开发了两个应用:一是“越狱增强器”,通过针对性地增强因果特征显著提升了在公开基准上的攻击成功率;二是“护栏顾问”,利用学到的因果图从混淆查询中提取真正的恶意意图。大量实验包括基线对比和因果结构验证证实了因果分析的鲁棒性,并证明其优于非因果方法。本文表明,从因果角度分析越狱特征是提升LLM可靠性的有效且可解释的途径。代码已开源。

💡 推荐理由: 首次从因果视角系统性地揭示LLM越狱的驱动机理,不仅解释了现有攻击为何成功,更提供了可操作的防御思路,有助于构建更鲁棒的护栏机制。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yan Pang, Wenlong Meng, Xiaojing Liao, Tianhao Wang

随着大型语言模型(LLM)的快速发展,利用其生成钓鱼内容的恶意行为日益普遍。攻击者可以利用LLM生成语法正确、主题定制的钓鱼邮件,这使得传统基于语义特征的检测方法难以有效识别。现有LLM检测方法存在计算成本高、依赖底层模型性能等问题,不适用于大规模部署。为此,本文提出了一种名为Paladin的新型防御范式。Paladin通过在原始LLM中嵌入触发-标签(trigger-tag)关联,采用多种插入策略,将普通LLM改造为“仪表化”模型。当仪表化模型生成与钓鱼相关的内容时,会自动包含可检测的隐式或显式标签,从而使得安全系统能够轻松识别钓鱼邮件。研究考虑了四种不同的场景(基于隐式/显式触发器和标签的组合),并从隐蔽性、有效性和鲁棒性三个关键维度评估了该方法。实验结果表明,Paladin在所有场景下的检测准确率均超过90%,优于现有基线方法。该方法为防御LLM生成的钓鱼内容提供了一种新的思路,具有低开销、高准确率的潜力。

💡 推荐理由: LLM生成的钓鱼邮件难以用传统方法检测,Paladin提供了一种新颖的主动防御范式,通过在生成源头嵌入可检测标记,有望降低安全运营的检测成本,提升对AI驱动钓鱼攻击的响应能力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Liwei Zhang, Linghui Li, Xiaotian Si, Ziduo Guo, Xingwu Wang, Kaiguo Yuan, Bingyu Li

本文针对联邦学习中的成员推断攻击提出了一种统一的防御框架。成员推断攻击旨在判断某个特定数据样本是否被用于训练模型,严重威胁用户隐私。现有防御方法存在计算开销大或可用性-隐私权衡不佳的问题。作者提出通过知识蒸馏和贡献感知聚合来协同防御:首先,服务器利用全局模型对客户端更新进行蒸馏,生成软标签指导本地训练,减少过拟合从而降低成员推断风险;其次,引入贡献感知聚合机制,根据客户端数据质量动态调整聚合权重,使聚合器对异常更新更鲁棒。实验在多个基准数据集(如CIFAR-10、MNIST)上验证,结果表明该方法在保持模型可用性的同时,显著降低了成员推断攻击的成功率(AUC下降超过10%),且计算开销低于现有对抗训练方法。该框架无需修改客户端训练过程,易于部署。

💡 推荐理由: 联邦学习中的成员推断攻击是重大隐私威胁,本工作提供了一种实用且高效的统一防御方案,对隐私合规要求高的场景(如医疗、金融)有直接应用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Chenxiang Luo, David K. Y. Yau, Qun Song 0001

联邦学习(FL)允许多个客户端协同训练模型而不共享原始数据,但面临梯度反转攻击(GIA)的威胁,攻击者可从共享梯度中重建私有数据。现有防御方法要么在嵌入式平台上计算开销过高,要么无法同时保证隐私保护和模型效用,且许多方法易被了解防御细节的自适应攻击者绕过。为此,本文提出SVDefense,一种基于截断奇异值分解(SVD)的梯度混淆防御框架。SVDefense包含三项关键创新:1)自适应能量阈值(Self-Adaptive Energy Threshold),根据客户端脆弱性动态调整SVD截断阈值;2)通道级加权近似(Channel-Wise Weighted Approximation),有选择地保留关键梯度信息以维持模型训练效果,同时增强隐私保护;3)层级加权聚合(Layer-Wise Weighted Aggregation),在类别不平衡下实现有效的模型聚合。实验评估在图像分类、人类活动识别和关键词识别等多个应用上表明,SVDefense在提供强大隐私保护的同时对模型精度影响极小,且可在多种资源受限的嵌入式平台上实际部署。论文若被接收将公开代码。

💡 推荐理由: 联邦学习隐私保护是当前安全热点,SVDefense在资源受限设备上实现了高效抗梯度反转攻击的防御,且对模型精度影响小,为实际FL部署提供了实用方案。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xinyu Tang 0003, Saeed Mahloujifar, Liwei Song, Virat Shejwalkar, Milad Nasr, Amir Houmansadr, Prateek Mittal

本文针对机器学习模型中的成员推断攻击(Membership Inference Attacks)提出一种名为SELENA的隐私保护训练框架。成员推断攻击旨在通过模型对成员与非成员输入的差异行为推断某样本是否属于训练集,是衡量模型隐私泄露的关键指标。现有防御方法如差分隐私虽能提供可证隐私保障,但会显著降低模型效用。本文的目标是在保持模型效用(utility)的同时提高成员隐私,即实现经验性隐私保障。SELENA框架包含两大核心组件:第一,Split-AI集成架构,它将训练数据随机划分为多个子集,并在每个子集上独立训练模型;在推理阶段,对于每个输入样本,仅聚合那些训练数据中不含该样本的模型输出,从而阻断攻击者利用模型行为差异。作者证明Split-AI能防御一大类成员推断攻击,但仍可能受到自适应攻击。因此,第二组件采用自蒸馏(Self-Distillation)方法,通过Split-AI集成对训练数据集进行自蒸馏,无需外部公共数据集,进一步增强对更强攻击的鲁棒性。在多个基准数据集上的实验表明,SELENA在成员隐私与效用之间实现了优于现有技术的权衡。本文适合机器学习安全研究人员、隐私保护从业者以及关注模型隐私泄露的工程师阅读。

💡 推荐理由: 成员推断攻击是评估机器学习模型隐私风险的核心方法,SELENA在保持模型高性能的同时显著提升隐私,为实际部署提供实用方案。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jing Shang, Jian Wang 0015, Kailun Wang, Jiqiang Liu, Nan Jiang 0005, Md. Armanuzzaman, Ziming Zhao 0001

模型剪枝是压缩深度学习模型的技术,迭代剪枝能在较低效用损失下获得更好的压缩效果。然而,本文分析发现迭代剪枝显著增加了模型的记忆化程度,使得剪枝后的模型更容易受到成员推理攻击(MIA)。现有的大多数MIA防御方法主要针对原始未剪枝模型,对迭代剪枝模型效果有限。为此,本文提出了一种名为WEMEM的新框架,旨在削弱迭代剪枝过程中的记忆化。具体而言,分析识别出导致迭代剪枝中记忆化增加的两个重要因素:数据重用和固有记忆性。考虑两者的单独及组合影响,形成三种导致迭代剪枝模型记忆化增强的场景。根据这些因素的特征,设计了三种防御原语,并通过组合这些原语,针对每种场景提出了有效的防御方法。在十种自适应MIA下的综合实验证明了所提出防御的有效性。此外,与现有五种防御方法相比,本文的防御在隐私-效用权衡和效率方面表现更优。同时,还增强了自动调整设置以达到最优防御的能力,提升了实用性。

💡 推荐理由: 迭代剪枝在模型压缩中广泛应用,但其引入的成员推理攻击风险常被忽略。本文揭示了这一漏洞并提出系统化防御,对保护模型隐私具有重要意义。

🎯 建议动作: 研究跟进

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)