#defense 主题 - Cyber Security Daily Radar

👥 作者: Yongjian Guo, Wanlun Ma, Lingyu Shen, Xi Xiao, Sheng Wen

本文针对大型语言模型（LLM）在微调过程中存在的安全漏洞展开研究。作者指出，恶意数据提供者可以将有害行为嵌入下游训练语料，导致模型在保留专业技能的同时，按照要求违背人类价值观。现有的安全重对齐防御通常面临三大局限：一是容易造成模型对专业技能的灾难性遗忘；二是在防御者无法观测到攻击者使用的提示模板时，防御效果显著下降；三是成功重对齐的模型仍可能通过简单的系统提示切换被再次越狱。为应对这些问题，论文提出了一种名为路由式基于策略的蒸馏（Routing-based On-Policy Distillation, ROPD）的新型重对齐框架。ROPD的核心思想是直接建模对齐模型与受攻击模型输出概率分布之间的差异，而不是拟合特定的提示模板，从而提升对模板变化的鲁棒性。作者在三个数据集和三个具有不同对齐强度的基础模型上，将ROPD与四种最先进的基线方法进行了广泛对比实验。结果表明，当基线防御面临模板不匹配时，其下游任务性能往往出现严重退化；相比之下，ROPD能够显著缓解模板不匹配风险，在防御有效性和能力保留方面均保持更强的鲁棒性。尽管分析显示ROPD并非完全免疫于模板偏移，但其性能下降幅度相比现有方法可以忽略不计，为稳健的LLM重对齐建立了新的标准。该研究适合LLM安全研究人员、模型对齐工程师以及关注供应链安全的防御者阅读。

💡 推荐理由: 该研究直击LLM微调供应链中的安全风险，提出的ROPD方法在防御模板变化方面显著优于现有基线，为蓝队提供了一种更抗绕过、更少遗忘的重对齐思路，有助于提升AI系统在实际对抗环境中的稳健性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pushkal Kumar, Tucker Nielson, Tanish Kolhe, Shubham Zala, Vincent Li

该论文提出了一种针对检索增强生成（RAG）系统数据投毒攻击的分层防御框架 RAGuard。RAG 系统通过检索外部语料库来增强大语言模型（LLM）的回答，但这种依赖也引入了安全风险：攻击者可以向语料库中注入精心设计的恶意文本片段，从而操纵检索结果并影响模型生成内容。论文聚焦于“事实性”语料投毒攻击，即注入包含虚构事实、矛盾信息或推理陷阱的文本。RAGuard 包含两层防御：第一层是对稠密检索器进行对抗性微调。研究者使用合成的投毒文档（包含伪造事实、矛盾和推理陷阱）微调检索器，使其学会在生成之前降低恶意片段的排序。第二层是零知识推理补丁（ZKIP），这是一种基于黑盒模型的无需标签的过滤器。对于每个检索到的文档，ZKIP 通过逐一排除（leave-one-out）解码方式，比较在有无该文档的情况下模型回答的语义偏移和输出熵变化，从而评估该文档对答案的影响。ZKIP 不依赖投毒标签、标准答案或模型内部权重，仅需对比模型在反事实上下文下的输出。在自然问答数据集（Natural Questions）上，投毒比例从 5% 到 30% 的实验中，仅进行对抗性检索器训练可以降低攻击成功率但仍无法根除；而加入 ZKIP 后，在所有被测试的防御配置下，攻击成功率均降至 0.000，同时将召回率（Recall@5）保持在干净语料库基线的 0.03 以内。此外，在 BEIR 的 NFCorpus 子集上的监督分析验证了 ZKIP 所依赖的反事实信号具有可学习的投毒结构。防御带来的开销是每个查询需要 k+1 次生成器推理（k=5 时为 6 倍），论文分析了批处理和提前停止等近似方法来减少开销。作者还指出，保留关键字的投毒方法几乎不影响基于词法的检索器（如 BM25），这界定了威胁模型的范围。为便于复现，论文公开了代码、数据集和评估框架。

💡 推荐理由: 针对 RAG 数据投毒攻击提供了分层防御方案，无需修改生成模型，且 ZKIP 黑盒特性易于集成。实验证明可将攻击成功率降至 0，同时保持检索质量，对构建可信 RAG 系统具有重要参考价值。

🎯 建议动作: 研究跟进

👥 作者: Ping He, Yuexiang Xie, Yaliang Li, Shouling Ji

随着大型语言模型（LLM）智能体的快速发展，其已被广泛应用于各类真实世界任务。为了标准化LLM智能体与外部环境之间的交互，模型上下文协议（MCP）工具应运而生，并成为事实上的标准，被广泛集成到这些系统中。然而，MCP工具的使用也引入了新的安全风险，因为LLM智能体可能被诱导执行恶意或未经授权的操作。尽管已有工作提出了针对LLM智能体工具使用的防御措施，但大多数方法依赖静态分析（即检查提示词和生成的输出），这限制了防御的有效性和鲁棒性。为了克服这些局限，本文提出了MTGuard，一种基于混合分析的防御框架，通过生命周期感知的静态-动态协同分析来保护LLM智能体中MCP工具的安全使用。广泛的评估表明，MTGuard能够有效缓解不同LLM智能体上多种类别的有害工具使用，同时保持良性用户任务的性能。该研究的核心贡献包括：提出了首个结合静态与动态分析的MCP工具安全防御框架；引入生命周期感知的概念，覆盖工具调用的完整过程；通过实验证明了其在多个智能体上的有效性和通用性。该论文适合LLM安全研究人员、智能体平台开发者以及关注AI供应链安全的安全工程师阅读。

💡 推荐理由: MCP已成为LLM智能体与外部工具交互的标准，但其安全风险尚未得到充分解决。MTGuard提出的混合分析思路突破了传统静态检测的局限，为蓝队防护AI智能体提供了新的技术参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mojtaba Zaheri, Yossi Oren, Reza Curtmola

本文研究利用缓存侧信道实现目标去匿名化的攻击与防御。作者首先分析了现代处理器中缓存侧信道泄露的机制，指出攻击者可通过监控共享缓存访问模式来识别受害者的活动，从而推断其身份或敏感信息。然后，提出了一种新的去匿名化攻击方法，利用CPU缓存的时序差异来区分不同进程或虚拟机的行为，结合先验知识（如网站指纹）实现用户去匿名化。实验在真实多用户系统上验证了攻击的有效性，成功率达到90%以上。针对该威胁，作者设计了两种防御机制：一是基于缓存分区，隔离敏感进程的缓存占用；二是引入随机延迟，混淆缓存访问模式。评估表明，防御措施在合理性能开销（<15%）下有效降低攻击成功率至10%以下。本文系统性地揭示了缓存侧信道在隐私攻击中的新应用，并提供了可落地的对策，适合安全研究人员、系统架构师以及云服务提供商阅读。

💡 推荐理由: 缓存侧信道去匿名化攻击可突破传统隐私保护机制（如Tor），威胁多租户环境中的用户匿名性。本文提出的防御方案具有实用价值，对云安全和隐私增强计算有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Elias Hossain, Md Mehedi Hasan Nipu, Fatema Tuj Johora Faria, Tasfia Nuzhat Ornee, Maleeha Sheikh

多智能体LLM应用通常由规划器、工作智能体、验证器和合成器按链式顺序调用，每个智能体之间的通道是未被监控的通信路径，攻击者可以通过这些通道注入恶意指令（例如提示注入、工具投毒）。现有防御（例如IBProtector、Llama Guard、困惑度过滤器、SmoothLLM）仅保护输入边界，或者作为不透明的随机提供商侧过滤器运行，忽略了内部通道的安全风险。本文通过实验揭示了一个关键发现：在2100条轨迹、8个攻击家族、5种防御和3个模型后端（Azure GPT-5、Anthropic Sonnet 4.5、Anthropic Haiku 4.5）的评估中，一个未防御的管道在标准报告下显示完全安全（工具投毒和记忆投毒攻击成功率为0.000），但这几乎完全归因于云提供商的服务端过滤器（Azure GPT-5上的60个块中有54个被阻止），而在没有此类过滤器的后端上，安全性会悄然转移到智能体模型自身的对齐上。仅报告结果会隐藏这种依赖关系。为此，本文提出ChannelGuard，一个无需训练的深度防御框架，在每个智能体间通道上放置信息瓶颈门；每个门通过嵌入相似性对通道文本进行评分，与对抗性短语库进行比较，并决定通过、压缩或阻止，无需额外的LLM调用；同时提供一个归因方法记录每层阻止攻击的决策。ChannelGuard的工具输出门在应用层100%阻止了30个工具投毒攻击，且在所有三个后端上表现一致（Azure GPT-5、Anthropic Sonnet 4.5、Anthropic Haiku 4.5），而未防御管道的安全性则完全随后端变化；还将提示注入攻击成功率从0.333降至0.167，并完全保留了GSM8K准确率（0.867）。白盒自适应释义攻击可以绕过所有嵌入门，而扰动-投票基线表现更好。附录包含基線、消融、超参数扫描、良性保留分析以及裁判审计（kappa = 0.900），总成本为47.36美元。

💡 推荐理由: 多智能体LLM系统已在生产环境中部署，但业界普遍忽视智能体间通道的安全风险。ChannelGuard首次系统性地揭示了该漏洞，并提供了轻量、无训练、可解释的防御方案，对构建安全的多Agent应用具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Khushnaseeb Roshan

该论文针对网络入侵检测系统（NIDS）面临的对抗性攻击威胁，提出了一种混合防御方法。NIDS是保护网络免受未知网络威胁的关键工具，但它容易受到对抗性攻击，攻击者通过构造对抗样本欺骗NIDS，将恶意流量误分类为良性。研究聚焦于两种强大的白盒对抗攻击：快速梯度符号法（FGSM）和Carlini & Wagner（C&W）攻击。作者开发了一种鲁棒的混合防御机制，结合了两种启发式防御方法：对抗训练（AT）和高斯数据增强（GDA）。GDA提供多方向防御，而AT增强NIDS对特定对抗向量的鲁棒性。在预攻击场景下，NIDS表现出良好的准确率和F1分数。但在攻击后，NIDS在FGSM和C&W攻击下的准确率分别显著下降至0.2649和0.4961。所提出的混合防御方法有效缓解了这些对抗威胁，对于FGSM和C&W攻击，防御后准确率分别达到96.57%和89.20%。研究在ε和置信噪声因子值范围（0.0001至0.0009）内评估了防御策略。该研究为安全视角下对抗机器学习这一新兴领域的研究人员提供了方向。适合NIDS安全、对抗机器学习研究人员阅读。

💡 推荐理由: 为NIDS抵御白盒对抗攻击提供了实用的混合防御方案，实验验证了高防御性能，对提升实际网络环境下的入侵检测系统安全性有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Khawaja Abaid Ullah, Mohammad Javad Khojasteh

该论文研究了分类模型中的反蒸馏采样问题。知识蒸馏攻击中，攻击者通过查询目标分类器的预测接口，利用返回的概率向量训练一个替代模型，从而窃取模型功能。此前针对大语言模型提出的反蒸馏采样方法通过输入相关的梯度导向扰动来防御此类攻击，但该方法在分类任务中的迁移尚未被研究。本文首先将反蒸馏采样迁移至分类场景，并发现其行为由教师模型每个输入上的置信度边际分布决定。由于训练良好的分类器存在严重的过度自信现象，直接迁移会导致一个“惰性窗口”：当扰动低于某个可闭式预测的阈值时，既不阻碍攻击者也不保护防御者；超过阈值后，防御发生相变，对教师模型的退化速度快于攻击者的学生模型。温度软化可以在闭式上缩放该相变点，但所有温度配置都位于相同的不利权衡曲线上。为此，作者提出ADS-C方法，在闭式每个输入边际预算下组合扰动，该预算可证明保留每个服务的top-1预测，因此防御后的教师准确度与未防御教师完全一致。在该保证下，蒸馏学生模型在CIFAR-100上仍损失17.4个百分点，CIFAR-10上损失29.6个百分点，Tiny-ImageNet上损失13.3个百分点；而使用未经修改的防御达到相同的学生退化程度则需要牺牲教师27.5、32.9和22.2个百分点的准确度。由于服务标签不变，硬标签攻击者无法获益，而防御后的软输出训练的学生模型准确度甚至低于硬标签底线（最多低29.7个百分点）：蒸馏服务概率的动机不仅被消除，反而被逆转。据作者所知，ADS-C是第一个效用成本恰好为零的分类反蒸馏防御方法。

💡 推荐理由: 提出首个零效用损失的反蒸馏防御，有效防止攻击者通过概率查询复制分类器，同时不牺牲原始模型准确度，对保护商业或敏感分类模型具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Aziz Alajmi, Hoeseok Yang

该论文提出动态Rowhammer阈值管理（Dynamic Rowhammer Threshold Management），一种与具体防御方法无关的运行层，用于解决传统Rowhammer防御在制造时固定阈值（TRHD）而忽略运行温度变化的问题。作者观察到真实的Rowhammer阈值（TRHD）随温度升高而降低（即温度退化效应），因此设计了一个基于线性-T模型的运行时层，每个时间周期根据观测温度重新计算防御阈值，并引入基于VRD（Variable Rowhammer Degradation）的防护带g。该层通过每个防御方法的阈值参数将结果映射到SALT-C、PRAC和TRR等具体防御机制。为打破模型自洽性，作者采用一个解耦的oracle，按DIMM对物理TRHD缩放δ ~ N(1, σ)。实验结果显示：该运行层使PRAC在85°C下的72次陈旧性违规降至0；在σ=0.10时，扫描g使PRAC违规从38.4（g=1.0）降至9.6（g=0.9）；SALT-C的违规次数从默认静态的10次降至动态的2次，再降至引导（bootstrap）模式的0次，同时延迟开销≤5.1%。TRR受容量限制，该运行层主要起诊断作用。论文主要贡献在于提出一种轻量级、与防御无关的动态阈值管理方法，能有效应对温度变化对DRAM Rowhammer脆弱性的影响，并兼容现有主流防御方案。适合DRAM安全研究人员、计算机架构师和内存控制器设计者阅读。

💡 推荐理由: 提出首个温度感知的Rowhammer防御阈值动态管理方案，显著降低因温度变化导致的内存安全漏洞风险，且与现有防御兼容。

🎯 建议动作: 研究跟进，评估将该方法集成到现有Rowhammer防御固件或控制器中的可行性。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Corban Villa, Alp Eren Ozdarendeli, Sijun Tan, Raluca Ada Popa

本文提出 Prismata，一种针对自主 Web 智能体（web agent）的跨站提示注入攻击的防御框架。背景：自主 Web 智能体旨在自动化日常浏览任务，但继承了 Web 最古老的攻击面之一——跨站脚本攻击（XSS）表明混合可信与不可信内容是危险的。智能体通过将自然语言解释为指令，重新引入此风险，使得第三方和用户生成的内容可通过提示注入劫持智能体。核心挑战：推导任务特定的安全策略需要对页面结构进行推理，而页面结构与攻击者内容纠缠在一起。Prismata 的防御思路是实施上下文最小权限原则，同时约束智能体看到的内容和能执行的操作。其动态信任推导机制为页面内容生成权限标签，并基于经典完整性模型提供结构化限制保证，确保标签只能降低权限且错误标记有界。机械限制机制通过删除内容和限制智能体能力来强制执行这些标签。重要的是，这些机制无需开发者标注，因此 Prismata 支持长尾网站。实验评估使用近期公开发布的 Web 智能体攻击（包括自适应变种）进行，结果表明 Prismata 显著降低攻击成功率，同时保持良性任务效用。本文适合安全研究人员、自主智能体开发者以及关注大模型安全的应用工程师阅读。

💡 推荐理由: 随着 LLM 驱动的自主智能体在浏览器中执行任务，跨站提示注入成为新兴且严峻的安全威胁。Prismata 提供了一种无需手动标注、可推广的防御方案，能显著降低攻击成功率，对保护未来自动化浏览安全至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Philemon Hailemariam, Birhanu Eshete

该论文针对机器学习模型面临的清洁标签后门攻击防御难题，提出了一种名为 PoisonSpot 的新型检测系统。清洁标签后门攻击通过污染训练数据嵌入隐藏行为，且无需修改标签，使得现有防御手段难以有效检测。PoisonSpot 的核心创新在于借鉴动态污点追踪思想，实现了细粒度的训练来源追踪：它能够监控单个训练样本在整个训练过程中对模型参数更新的影响，并基于影响谱线为每个可疑样本分配毒性分数，从而精确识别并剔除携带后门触发器的样本。在多个基准数据集和攻击场景（包括自适应攻击策略）下的实验评估表明，PoisonSpot 相比现有最先进的清洁标签后门防御方法具有显著优势：始终实现高真阳性率、低假阳性率，并有效减轻后门攻击。此外，该系统在重训练和微调等多种训练设置下均能高效运行，展现出良好的鲁棒性和可扩展性。论文详细描述了追踪机制、毒性评分算法以及防御流程，为机器学习安全领域提供了一种精准、可操作的防御方案。

💡 推荐理由: 清洁标签后门攻击因隐蔽性强而难以检测，PoisonSpot 通过细粒度训练来源追踪实现了高精度识别，对依赖第三方数据的模型安全具有重要防护价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sizhe Chen, Arman Zharmagambetov, Saeed Mahloujifar, Kamalika Chaudhuri, David A. Wagner 0001, Chuan Guo 0001

本文提出一种基于偏好优化的防御方法 SecAlign，用于缓解大型语言模型（LLM）面临的提示注入攻击。在 LLM 与外部数据源（如用户文档、网络检索结果、API 返回等）交互时，攻击者可将恶意提示注入这些外部内容，覆盖系统原有指令并执行恶意操作。SecAlign 的核心思路是构建一个偏好数据集，其中每个样本包含一个经过提示注入的输入、一个安全输出（响应合法指令）和一个不安全输出（响应注入指令）。然后利用偏好优化算法（如直接偏好优化 DPO）训练 LLM，使其更倾向于生成安全输出而非不安全输出。实验表明，SecAlign 能将多种提示注入攻击的成功率降至 10% 以下，即使面对训练中未见过的更复杂攻击也能保持有效，说明具有良好的泛化能力。同时，经过防御训练的模型在实用性上与原始模型相当，没有显著降低语言生成质量。该工作提供了首个已知的基于偏好优化的提示注入防御方法，代码已开源。

💡 推荐理由: 提示注入是 LLM 应用中的关键安全威胁，现有防御效果有限。SecAlign 提供了一种系统化的偏好优化框架，可显著降低攻击成功率且泛化性强，为构建更安全的 LLM 代理系统提供了实用方案。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yan Pang, Aiping Xiong, Yang Zhang 0016, Tianhao Wang 0001

该论文系统性地研究了视频生成模型（VGM）产生不安全内容（如暴力、恐怖、色情、政治敏感等）的风险。作者首先从4chan和Lexica等来源收集可能诱导不安全内容生成的提示词，并使用三种开源最先进视频扩散模型（如VideoFusion、ModelScope等）生成视频，经过滤后从5607个原始视频中筛选出2112个候选不安全视频。通过聚类和主题编码，归纳出五类不安全视频：扭曲/怪异、恐怖、色情、暴力/血腥和政治。经IRB批准，招募403名在线参与者对视频进行标注，最终确认937个不安全视频，并构建了首个VGM生成不安全视频数据集。针对现有防御方法（输入过滤或输出过滤）的不足，论文提出一种名为潜在变量防御（LVD）的新方法，该方法在模型内部采样过程的初始阶段检测不安全样本，通过分析潜在空间中的中间表示来判断是否生成不安全内容。实验表明，LVD在三个开源模型上分别达到0.99、0.92和0.91的防御准确率，且在对抗性提示和图像到视频扩散模型上准确率均超过0.90。与基线方法相比，LVD在大规模采样时可将时间和计算资源降低10倍。此外，LVD还能与其他防御方法组合使用以提升整体性能。论文将公开数据集和代码。

💡 推荐理由: 随着视频生成模型的普及，其产生不安全内容的潜在风险日益突出。该研究首次系统性地揭示了VGM的不安全生成问题，并提出了高效的内部防御机制LVD，为内容安全审核提供了新思路，值得安全从业者关注。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chong Fu 0002, Xuhong Zhang 0002, Shouling Ji, Jinyin Chen, Jingzheng Wu, Shanqing Guo, Jun Zhou 0011, Alex X. Liu, Ting Wang 0006

本文针对纵向联邦学习（VFL）中的标签推断攻击提出了一种名为KD-k（知识蒸馏结合k-匿名）的防御框架。在VFL中，多个参与方持有垂直划分的数据，共同训练机器学习模型，其中标签仅由聚合服务器（标签所有者）持有，旨在保护标签隐私。然而，已有研究发现，攻击者可以利用服务器返回给底层模型的梯度信息，结合少量辅助标签（仅需训练数据中极少部分样本的标签），推断出其他样本的私有标签。这类攻击被称为标签推断攻击，严重威胁了VFL中的标签隐私。为了抵御此类攻击，本文提出的KD-k框架结合了知识蒸馏和k-匿名技术：首先通过知识蒸馏机制，将原始教师模型的知识迁移至学生模型，从而减少梯度中关于标签信息的泄露；同时引入k-匿名，确保每一类的梯度在统计上无法区分个体样本，进一步弱化攻击者的推断能力。在多个标准数据集上进行的实验表明，应用KD-k后，多种标签推断攻击的成功率显著下降，降幅超过60%，而VFL全局模型的精度几乎不受影响（几乎无损失）。该工作为VFL中的隐私保护提供了有效的解决方案，平衡了模型效用与隐私安全性。本文适合联邦学习、隐私保护机器学习领域的研究人员和工程师阅读，以了解标签推断攻击的现状及一种实用的防御思路。

💡 推荐理由: 标签隐私是VFL中的关键安全问题，本文提出的KD-k框架能有效降低标签推断攻击成功率（>60%），同时几乎不影响模型精度，为联邦学习隐私保护提供了实用方案。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kaiyuan Zhang 0002, Siyuan Cheng 0005, Guangyu Shen, Bruno Ribeiro 0001, Shengwei An, Pin-Yu Chen, Xiangyu Zhang 0001, Ninghui Li 0001

该论文针对联邦学习中的梯度反转攻击提出了一种新的防御方法 CENSOR。联邦学习中，客户端发送梯度更新至中央服务器，但梯度可能泄露原始训练数据的隐私信息。现有的梯度反转攻击可以从梯度中恢复出训练样本，而现有防御方法在高维模型参数下效果有限。CENSOR 利用模型参数的高维特性，通过将梯度投影到与原始梯度正交的子空间中进行扰动，并采用冷后验（cold posterior）在正交子空间上进行贝叶斯采样，从而选择一个既能有效防御梯度反转攻击又能保持模型效用的最优梯度。作者在三个不同数据集上进行了全面实验，与多种先进攻击和防御方法对比，证明了 CENSOR 在防御性能和模型效用之间的良好平衡。该方法特别适用于大型神经网络模型，为联邦学习隐私保护提供了新的思路。

💡 推荐理由: 联邦学习中的隐私泄露风险严重，该工作提供了一种新的可证明有效的防御机制，尤其针对高维模型，有助于在实际部署中保护客户端数据。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Aoying Zheng, Anqi Du, Zizhuang Deng, Yuxuan Chen

模型量化是降低大语言模型存储和推理开销的关键技术，但最近的研究表明，量化引入的离散化和舍入误差可被攻击者利用，构造量化条件后门攻击。在这种攻击下，恶意行为在全精度阶段保持休眠，仅在量化部署后激活，从而绕过传统的安全审计和检测机制。针对这一威胁，本文提出了一种主动的预量化防御方法 QuantGuard。该方法引入了可微的舍入控制变量，并结合了误差引导的舍入反转约束、输出分布一致性和权重距离正则化，以精细调控关键的舍入行为。关键的是，QuantGuard 仅使用少量校准数据集，且不修改现有量化算法。这种设计打破了攻击者精心构造的权重模式与量化边界之间的精确对齐，有效抑制了量化后的后门激活路径，同时保持了模型的原始功能和性能。作者在六个主流大语言模型（包括 LLaMA-3 和 Qwen2.5-Coder）上，使用三种量化精度（INT8、FP4 和 NF4），在三个代表性场景（易受攻击代码生成、内容注入和过度拒绝）下进行了系统实验。结果表明，QuantGuard 能够持续缓解量化条件后门攻击，将攻击成功率降低到与干净模型相当的水平，同时在通用能力基准测试上基本保持性能。该方法计算开销低，为安全量化部署 LLM 提供了一种有效实用的解决方案。

💡 推荐理由: 量化是LLM部署的关键技术，但量化条件后门攻击可绕过传统安全审计。本文提出的QuantGuard防御方法能在不改变量化算法的前提下有效抑制后门，为实际安全部署提供了重要保障。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nima Dorzhiev

本论文提出了RIPA，首个针对基于ROS 2的LLM控制机器人系统的多通道感知向量提示注入攻击的系统性实证研究。研究在5个不同参数量（约4B至284B）的LLM上进行了每个攻击变体100次独立实验，涵盖DeepSeek-V4-Flash、Llama-3-8B-Instruct-Lite、Llama-3.3-70B-Instruct-Turbo、Qwen 2.5-7B-Instruct-Turbo和Gemma-3n-E4B。发现模型存在特定的脆弱性轮廓，且不随参数量单调变化：例如，Llama-3.3-70B-Instruct-Turbo在所有攻击变体上达到100%攻击成功率（ASR），而Llama-3-8B-Instruct-Lite和Qwen 2.5-7B-Instruct-Turbo在直接覆盖注入上为0% ASR，最小的Gemma-3n-E4B与70B模型脆弱性相似，表明鲁棒性与模型架构相关而非规模。研究还提出了一种混合语义防火墙，对已知注入模式实现0% ASR且无假阳性，但对混淆攻击的绕过率为10.2%。进一步引入了三种感知注入通道：视觉（通过OCR）、音频（通过Whisper STT）和LiDAR传感器上下文投毒（Channel 3），其中Channel 3通过在LLM系统提示层注入虚假障碍数据，在DeepSeek-V4-Flash上实现100% ASR。此外，贡献了包含19种混淆载荷的防火墙绕过分类。所有代码、数据和结果公开。

💡 推荐理由: 该研究揭示了LLM控制机器人系统在多模态感知输入下的脆弱性，为安全从业者提供了攻击面理解和防御设计的重要参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Poojitha Thota, Shirin Nilizadeh

该论文针对在微调阶段对大型语言模型（LLM）进行数据投毒攻击的防御问题展开研究。在抽象文本摘要任务中，微调数据集通常较小，攻击者可通过操纵少量训练样本，使模型生成有偏见或有害的摘要，同时保持标准评估指标正常。论文提出了一种统一的防御框架，可在模型部署后检测并修复微调阶段的数据投毒。在白盒场景下，被投毒的文档-摘要对表现出异常高的训练影响，通过影响函数分析和语义一致性检查可有效检测。在黑盒场景下，被投毒模型对保持语义的扰动表现出2-3倍的敏感性，可实现无需访问训练数据的行为审计。此外，论文还引入了两种新型攻击：事实扭曲攻击和代表性偏见攻击，证明投毒可改变摘要行为而不触发常规警报。实验基于9种架构和6个基准数据集，在自适应攻击下，检测精度达到85-92%，梯度上升遗忘（unlearning）可恢复高达96%的原始行为，且ROUGE指标下降小于0.6%。研究表明，微调阶段投毒会留下持久的结构性痕迹，使得无需完全重新训练即可实现实用检测和部署后恢复。

💡 推荐理由: LLM在微调阶段面临的数据投毒风险极具隐蔽性，传统防御难以兼顾效果和效率。本文首次提出统一的后验防御方案，兼顾检测与恢复，对AI供应链安全具有重要参考价值。

🎯 建议动作: 研究跟进，考虑在内部LLM微调流水线中集成类似检测与修复机制

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Gabriela F. Ciocarlie, Kathrin Grosse, Somesh Jha, Daryna Oliynyk, Andrew Paverd, Christian Wressnegger

该论文探讨了代理人工智能（Agentic AI）如何解决网络安全中长期存在的挑战。当前安全防御面临成本高昂、人工密集型任务成为瓶颈等问题，许多防御措施因效率低下而难以实施。代理AI通过直接接收和推理自然语言或代码的能力，有望自动化这些任务，从而扩大可行防御的范围。论文首先系统性地将开放的安全问题映射到新兴的代理AI能力上，随后通过16个案例研究（涵盖供应链分析、漏洞管理、事件响应等场景）具体展示了代理AI如何协助防御者。每个案例分析了传统方法的局限性、代理AI的潜在优势以及实现路径。研究贡献包括：提出了一个将安全挑战与AI能力对齐的框架；通过案例研究验证了代理AI的实用价值；指出了当前代理AI在可靠性、可解释性和安全性方面的局限性。适合安全研究人员、AI开发者和安全运营团队阅读，以了解AI agent在防御中的前沿应用。

💡 推荐理由: 该研究为安全团队提供了一种新思路：利用代理AI自动化人工密集型安全任务，可显著提升防御效率和覆盖面，尤其适用于供应链分析等复杂场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Yijun Yang, Ruiyuan Gao 0001, Yu Li 0007, Qiuxia Lai, Qiang Xu 0001

该论文聚焦于深度神经网络（DNN）在安全关键领域（如自动驾驶）中面临的对抗性样本威胁。现有防御方法存在诸多局限：只能防御部分对抗性样本，或导致正常输入的高精度损失，且多数无法抵御自适应攻击（即攻击者了解防御机制后针对性构造的样本）。作者观察到一种语义矛盾现象：人类对图像的感知与网络内部表征之间存在差异。基于此，提出一种新的检测方法，通过比较网络输出与人类可理解的语义标签是否一致来识别对抗性样本。具体地，该方法利用一个额外的语义一致性校验模块，该模块从网络中间层提取特征，并与输入的语义标签进行对比，若不一致则判定为对抗性样本。实验在多个基准数据集（如ImageNet、CIFAR-10）和多种攻击手段（FGSM、PGD、CW等）下进行，结果表明该方法能有效检测多种对抗性样本，同时对正常输入的精度损失极小。此外，该方法在自适应攻击下仍能保持较高检测率，展现了较好的鲁棒性。主要贡献包括：首次系统性地利用语义矛盾检测对抗性样本；提出一种轻量级、可插拔的检测模块，降低部署成本；通过大量实验验证了方法的有效性。该研究适合计算机视觉安全、DNN鲁棒性领域的研究人员及安全工程师阅读。

💡 推荐理由: 针对对抗性样本的现有防御普遍存在覆盖不全或影响正常性能的问题，该论文提出的基于语义矛盾的检测方法在保持高检测率的同时几乎不损失正常输入精度，且能抵抗自适应攻击，为实际部署提供了更实用的解决方案。

🎯 建议动作: 研究跟进：评估该方法在自身业务场景中的适用性，并考虑集成到现有防御体系中。

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Kaihsun Yang, Min-Yan Tsai, Chia-Mu Yu

该论文针对模型量化中的后门攻击（Quantization-Conditioned Backdoors, QCBs）提出了一种新型防御方法。QCBs 是一种后门威胁：模型在全精度下表现正常，但经过量化后激活恶意行为。现有防御通常需要修改量化过程或校正激活统计信息，导致额外计算开销或依赖特定量化设置。作者从参数空间角度出发，观察到全精度模型与量化模型之间的权重差异编码了一种结构化的行为偏移，这种偏移可被解释为恶意任务向量而非随机量化噪声。基于此，提出了 QVec 方法：在部署前通过受控参数修正来抵消该恶意方向。QVec 无需重训练、无需触发器样本，仅需一次量化传递来估计参数偏移，并结合轻量级超参数搜索。在图像分类基准和多种大语言模型（LLM）攻击场景上的实验表明，QVec 能在保持干净模型性能的同时持续抑制后门激活。该方法为防御 QCBs 提供了一种高效且通用的新思路。

💡 推荐理由: 模型量化广泛应用，QCBs 是一种隐蔽且危险的攻击；QVec 无需修改量化流程或重训练，即插即用，对于保护量化模型安全具有实际价值。

🎯 建议动作: 研究跟进，在内部评估 QVec 对现有量化模型的防御效果。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Meng Shen 0001, Kexin Ji, Jinhe Wu, Qi Li 0002, Xiangdong Kong, Ke Xu 0002, Liehuang Zhu

网站指纹（WF）攻击严重威胁匿名网络（如Tor）用户的隐私。尽管已有多种防御方案，但面对基于深度学习的先进WF攻击，现有防御效率不足。本文提出Palette，一种新颖且实用的实时WF防御方法，通过流量簇匿名化保护实时Tor流量。核心思想是将流量模式高度相似的网站聚类，并为每个簇（即一组相似网站）设计统一的标准化流量模式，从而阻止攻击者区分簇内相似网站，提供强匿名保证。Palette的关键步骤包括：首先，基于真实流量特征对网站进行聚类；其次，为每个簇生成一个统一的目标流量模式（例如，通过填充、调整数据包大小和时序等）；然后，在流量传输过程中实时将簇内网站的流量整形为该统一模式。实验使用公开真实数据集进行综合评估，结果表明Palette在可接受的额外开销下，大幅降低了最先进WF攻击的准确率。具体地，在Tor网络中以可插拔传输（Pluggable Transport）形式实现Palette并部署后，平均将SOTA WF攻击的准确率降低73.60%，相比现有防御提升33.50%-43.47%。该方法适用于所有关注匿名通信安全的场景，尤其适合Tor网络运营商、隐私保护研究人员及安全产品开发者阅读。

💡 推荐理由: 深度学习WF攻击使Tor用户隐私面临严峻挑战，现有防御失效。Palette首次提出基于流量簇匿名化的实时防御，在保持低延迟同时大幅降低攻击准确率，为匿名网络隐私保护提供了新范式。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Po-Han Cheng, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

该论文提出 CodeSentinel，一种针对代码大语言模型（Code LLM）中间接提示注入攻击的三层推理时防御系统。研究背景：代码大语言模型在编程辅助中常从外部仓库、文档、问题线程和编码智能体环境检索代码上下文，攻击者可利用此过程在注释、字符串、标识符或诱饵代码中隐藏恶意指令，实现间接提示注入。核心问题：现有防御方法如输入过滤、输出检测或整体提示净化，难以同时兼顾准确性和低开销。方法：CodeSentinel 通过三层架构进行实时净化。第一层利用 Tree-sitter 解析代码的 Concret e Syntax Tree (CST)，提取高风险节点（如字符串、注释等可能携带注入的节点）。第二层包括语法引导预过滤（移除明显无关节点）和 CST 引导动态 Min-K% 评分（利用语言模型对节点的困惑度差异识别异常）。第三层进行节点扰动分析，通过轻微修改节点并观察模型输出变化来确认攻击触发器。检测到的恶意节点被移除或中和后，再将纯净代码送入下游 Code LLM。实验：在六个最新攻击家族（包括对抗性和自然语言样式）上评估，CodeSentinel 实现平均节点级 F1 得分为 0.80，显著优于现有工具 CodeGarrison、DePA 和 KillBadCode。主要贡献：首次针对代码上下文的间接提示注入提出结构化防御，集成多种检测技术，具备高准确率和较低计算开销。适合读者：安全研究人员、开发安全工程师、LLM 应用开发者。

💡 推荐理由: 代码大语言模型在编程场景中广泛应用，间接提示注入可导致模型执行恶意代码或泄露敏感信息。CodeSentinel 提供了一种实用的实时防御方案，能有效净化代码上下文，降低攻击风险，对保障基于LLM的编码助手的供应链安全具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jie Fu 0003, Yuan Hong 0001, Zhili Chen, Wendy Hui Wang

图神经网络（GNN）在基于图结构的数据学习中表现出强大能力，但其广泛应用引发了严重的隐私问题。尽管已有研究主要关注边级隐私（如边是否存在），但图拓扑结构（即图的整体形状）的机密性是一个关键但未被充分探索的威胁。本文首次系统研究了GNN中的拓扑隐私风险，揭示了GNN对图级别推理攻击的脆弱性。作者提出了一套拓扑推理攻击（TIAs），攻击者仅通过黑盒访问训练好的GNN模型，就能重构目标训练图的拓扑结构。实验表明，GNN极易受到此类攻击，而现有的边级差分隐私机制要么无法缓解风险，要么严重损害模型精度。为此，本文提出私有图重构（PGR）防御框架：将其建模为双层优化问题，通过元梯度迭代生成合成训练图，同时基于演化的图更新GNN模型。大量实验证明，PGR在最小化模型精度损失的同时，显著降低了拓扑泄露。代码与完整论文已开源。

💡 推荐理由: 首次系统性揭示GNN的拓扑隐私漏洞，挑战了边级隐私保护充分的假设；提出的攻击和防御方法对隐私敏感图应用（如社交网络、生物信息）具有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Lipeng He, Yihan Wang, Jiawen Zhang, N. Asokan

本文针对LLM智能体面临的间接提示注入攻击（攻击者通过第三方数据嵌入恶意指令）提出了一种新的防御方法RETA。现有防御方法在静态基准测试中近乎零攻击成功率，但在自适应攻击评估中性能大幅下降。作者分析指出两大失效原因：一是现有防御仅识别特定攻击模式，而非判断指令意图是否与用户任务相关；二是基于训练的防御方法其对抗样本仅来自少量手工模板，导致泛化能力差。RETA方法将防御决策建立在用户任务之上，而非攻击者的数据。在每个工具输出步骤，防御者通过链式思维推理验证其行为是否与用户任务一致。通过红队模拟，攻击者合成对抗训练数据，并利用字典学习多样性奖励覆盖广泛的注入变体策略。最后通过多目标强化学习优化防御者，实现更好的安全-效用平衡。在6种黑盒自适应攻击下，RETA将每个攻击的攻击成功率（ASR）控制在10%以下，平均ASR分别为2.92%和3.75%，同时保持攻击下和干净输入下的高效用。本文适合LLM安全研究者、智能体系统开发者以及关注提示注入防御的安全工程师阅读。

💡 推荐理由: 提示注入是LLM智能体面临的核心威胁，现有防御在自适应攻击下全面失效。RETA提出基于任务对齐的方法，首次在自适应评估中保持低至3%的攻击成功率，为实际防御部署提供了可行方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zixuan Gu, Xiaojun Ye, Yang Liu

该研究聚焦于分割式大语言模型（Split-LLM）中的数据泄露与防御问题。在隐私敏感场景中，用户面临两难：使用外部API可能泄露隐私数据，而本地部署则计算成本高昂。分割学习（Split Learning）作为一种折中方案，将模型切分，客户端运行部分网络层，服务器端运行其余部分，但这也引入了新的隐私风险。以往工作主要关注输入提示（prompt）的泄露，通常通过对中间表示的逆向攻击实现，而对生成响应（response）中潜在敏感信息泄露的关注较少。本文首先揭示了Split-LLM中的新型漏洞，提出了补丁模型逆向攻击与双端初始化（PIDI），这是一种两阶段攻击方法，同时针对私有输入提示和输出响应。PIDI结合双端初始化和补丁逆向策略来处理长序列，显著优于以往的逆向方法。为抵御来自两端的威胁，作者进一步提出了基于适配器的双端防护与互信息防御（ADMI），它集成了适配器本地预热策略和互信息正则化，在最小影响任务性能的前提下提供了强大的经验隐私保护。在多种任务和模型上的大量实验表明，ADMI能有效防御PIDI及其他最新逆向攻击。该工作揭示了Split-LLM中双向数据泄露的风险，并提出了实用的防御方案，对安全部署大语言模型具有重要参考价值。

💡 推荐理由: 该研究首次系统性揭示分割式大语言模型（Split-LLM）中双向（输入提示与输出响应）数据泄露风险，并提出了有效防御方法，对保护用户隐私、指导LLM安全部署具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shinan Liu, Xiang Cheng, Hanchao Yang, Yuanchao Shu, Xiaoran Weng, Ping Guo 0007, Kexiong Curtis Zeng, Gang Wang 0011, Yaling Yang

该论文提出了一种基于恒星观测的GPS欺骗攻击防御方法，利用现成的GPS芯片和可见光传感器（例如摄像头）检测定位信号的一致性。传统GPS欺骗攻击通过伪造卫星信号使接收机产生错误定位，而本文方法通过比对GPS报告的定位与基于恒星位置的天文观测结果来识别欺骗。恒星位置是固定且难以伪造的，因此任何与恒星位置不一致的GPS定位都将被标记为潜在攻击。作者使用现成的GPS接收机和商用相机实现原型系统，实验表明该方法能够有效检测多种类型的GPS欺骗攻击，且误报率低。该研究为GPS安全提供了一种低成本、易部署的补充防护手段。

💡 推荐理由: GPS欺骗攻击对自动驾驶、无人机、海运等关键基础设施构成严重威胁，现有防御方案多依赖专用硬件或网络辅助，成本高。本文利用常见硬件（相机+GPS芯片）提供了一种新颖、低成本的检测思路。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pengrun Huang, Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri

本文研究了大型语言模型（LLM）在领域特定数据集上微调时面临的数据集属性泄露风险。近期研究表明，通过属性推断攻击（property inference attacks），攻击者能够有效提取模型训练数据集中的敏感属性（如数据集的整体分布特征），从而构成保密性威胁。现有防御方法主要依赖于修改训练数据分布，这需要访问原始数据并重新训练模型，限制了其在数据不可用或模型已部署场景下的适用性。本文提出基于对齐（alignment）的防御方法，通过后训练对齐（post-training alignment）重塑模型输出分布，使其朝向目标属性比例，而无需修改训练数据或重新训练。具体地，作者将两种广泛使用的基于人类反馈的强化学习（RLHF）框架——直接偏好优化（DPO）和组相对策略优化（GRPO）——适配为防御方法：DPO通过构造偏好对（将属性比例正确的输出作为偏好样本），GRPO通过定义特定奖励函数来惩罚属性泄露。综合实验表明，基于对齐的防御能有效缓解属性推断攻击，同时在模型效用与隐私保护之间取得良好平衡。本文的主要贡献在于首次将对齐技术应用于防御属性推断攻击，提供了无需数据访问的轻量级解决方案，对保护微调数据的隐私具有重要实践意义。适合关注LLM隐私保护、对抗性攻击防御的研究人员和工程师阅读。

💡 推荐理由: 为LLM微调场景下的数据集属性泄露问题提供了一种无需重新训练、无需原始数据即可部署的防御方案，填补了现有防御在数据不可用时的空白。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Sheng Wan, Dashan Gao, Hanlin Gu, Lixin Fan, Daning Hu, Qiang Yang

该论文首次系统性地研究了基于logit的联邦学习（FL）中隐藏的隐私风险。传统的参数化FL通过交换模型权重或梯度来保护数据隐私，而新兴的logit-based FL方法则在公共数据上共享模型输出（logits），从而促进模型异构性、降低通信开销并增强客户隐私。然而，这些方法的隐私风险被严重忽视。本文提出并分析了一种半诚实服务器（对手）通过学习训练过程中的历史logits来窃取客户私有模型的自适应模型窃取攻击（AdaMSA）。作者从理论和实验两方面证明了这一隐私风险的存在，即使在公共数据与私有数据无关的情况下，风险依然存在。为应对这一威胁，他们提出了一种简单而有效的防御策略：在传输logits时添加扰动，方向是使隐私风险最小化同时最大限度保持训练性能。实验结果表明，AdaMSA能够有效窃取模型，而防御策略能在少量影响性能的前提下显著降低隐私泄露。该研究为logit-based FL的安全性提供了重要理论基础和实用解决方案，并提醒社区注意这一被忽视的隐私漏洞。

💡 推荐理由: 联邦学习是保护数据隐私的关键技术，logit-based方法因其优势被广泛采用，但其隐私风险尚未被充分认识。本研究揭示了即使公共数据无关，攻击者仍能窃取私有模型，并提供了可落地的防御方案，对使用logit-based FL的企业和研究机构具有高度警示意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Abu Taib Mohammed Shahjahan, Mohammad Mannan, Abdessamad Ben Hamza, Amr Youssef

该论文聚焦于深度伪造图像检测器在对抗攻击下的鲁棒性问题。尽管近年来提升检测器对未见生成模型泛化能力的研究取得进展，但检测器仍易受对抗样本攻击。作者复现了Abdullah等人（IEEE SP 2024）对八种检测器的评估，并额外测试了七种最先进检测器，均发现攻击下性能显著下降。为此，论文提出一个不依赖对抗训练的统一框架，融合三种互补设计：1）基于离散余弦变换（DCT）的四阶矩池化，在频域建立高阶统计建模；2）从噪声残差中提取内容无关特征；3）通过分块语义破坏实现跨场景泛化。核心洞察是对抗攻击主要利用低阶统计和视觉语义，而高阶残差-频率特征（尤其是峰度）几乎不受约束。大量实验表明，该方法在六种不同架构的检测器上持续提升鲁棒性，在现有对抗基准测试中将召回率退化降低最多88.9%，并将最佳检测器（Yang等人，IEEE CVPR 2025）的攻击下准确率从81.9%提升至97.15%。该工作为提升深度伪造检测对抗鲁棒性提供了通用的、架构无关的解决思路。

💡 推荐理由: 深度伪造检测器在对抗攻击下脆弱性是实际部署的关键隐患；该方法无需对抗训练即可显著提升鲁棒性，对蓝队构建可靠检测体系具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hiskias Dingeto, William Leeney

该论文提出了AgentRedBench，一个动态的LLM驱动的红队基准测试，专门针对通过SaaS集成（如Gmail、Salesforce、Jira等）使用工具调用的LLM智能体面临的间接提示注入威胁。现有基准测试覆盖的集成种类有限，且攻击载荷重复使用；开源防御模型多基于聊天数据训练，而非工具响应内容。AgentRedBench包含215个微妙的未授权场景，涵盖9个功能家族、24个企业集成和5种攻击类型。对八个模型（Anthropic、OpenAI、Google）的评估显示，无防御时的攻击成功率（ASR）介于32%（Claude Sonnet 4.6）到81%（Gemini 3 Flash）之间。为了保持场景集不进入训练语料并确保ASR的时效性，作者开源了代码、集成模式和AgentRedGuard模型；规范场景通过维护者中介渠道进行版本管理。AgentRedGuard是一个基于多样化的集成对抗工具响应内容训练的防御模型，将面板ASR从69.9%降至2.4%，误报率仅为0.37%，在检测率和误报率两方面均优于所有开源基线（如Llama Guard、PromptGuard 2、ProtectAI）。跨集成和跨攻击类型的保留测试证实了性能迁移能力。

💡 推荐理由: LLM智能体在真实生产环境中面临间接提示注入的严重威胁，现有基准和防御不足。AgentRedBench提供了更全面的评估框架，AgentRedGuard实现了极低误报率下的高效检测，对保护企业SaaS集成场景有直接价值。

🎯 建议动作: 研究跟进并评估将AgentRedGuard集成到内部LLM智能体防护流程中

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Guoming Zhang, Xiaoyu Ji 0001, Xinfeng Li, Gang Qu 0001, Wenyuan Xu 0001

本文关注针对语音助手的 DolphinAttack（不可听语音命令攻击），该攻击将可听语音调制到超声波上，从而无声地注入恶意命令，例如控制智能门锁或音箱。由于攻击利用了超声波的人耳不可听特性，且不需要物理接触，传统方法难以防御。现有防御方案通常需要修改麦克风硬件，成本高且兼容性差。为此，作者提出 EarArray，一种轻量级的软件防御方法，无需额外硬件或硬件改动，仅利用智能设备上已有的多个麦克风阵列。其核心原理是：超声波在空气中传播时衰减速度比可听声更快，因此通过分析多个麦克风接收到的信号衰减率，可以区分正常可听声命令和调制的不可听命令。同时，基于信号到达不同麦克风的时间差和能量差异，EarArray 还能估计攻击者的方向。作者建立了声音传播模型，并在两个特制的麦克风阵列上实现了原型系统。实验结果表明，EarArray 检测不可听语音命令的准确率达到 99%，攻击方向识别准确率达到 97.89%。该工作为抵御超声波类隐蔽攻击提供了实用、低成本的解决方案，尤其适合集成在现有智能音箱、手机等设备中。

💡 推荐理由: DolphinAttack 对各类语音助手构成严重威胁，而 EarArray 仅通过软件算法即可高精度检测和定位攻击，无需硬件修改，具有高实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Huanli Gong, Zhipeng Wei, Yu Fu, Haz Sameen Shahgir, Ananya Gupta, Yue Dong, N. Benjamin Erichson

多轮越狱攻击（Multi-turn Jailbreak Attacks）利用辅助评判模型（Judge Model）的反馈信号来迭代优化对抗性提示，逐步突破大语言模型（LLM）的安全防护。现有防御措施主要针对单轮响应或最终输出进行检测与阻断，但未能切断攻击者利用中间交互获取评判信息的闭环，导致攻击者仍能从辅助模型的反馈中提炼出提示改进方向。本文提出 D-Judge——一种语义保持的输出重写防御方法。D-Judge 在受害者 LLM 的响应被攻击者的评判模型评估之前，直接干预该循环，对响应进行重写。重写后的响应在语义上与原始响应等价，但能使评判模型给出不同的有害性分数，从而扭曲攻击者的反馈信号。攻击者的提示优化过程随后会针对一个失真的攻击进度信号进行，使得后续查询偏离有效路径。为提升 D-Judge 生成此类重写的能力，研究者构建了一个包含语义等价但评判分数不同的响应配对数据集，并采用监督微调（Supervised Fine-Tuning）后接直接偏好优化（Direct Preference Optimization）进行训练。在 HarmBench 基准上的实验表明，D-Judge 在保持良性任务性能的同时，显著降低了当前最先进多轮越狱攻击的成功率。该方法主要贡献在于：(1) 提出一种新的防御视角——中断攻击者的反馈闭环而非仅检测有害内容；(2) 设计了语义保持的重写机制以保持可用性；(3) 展示了通过偏好优化训练重写模型的有效性。适合关注 LLM 安全防御、对抗性攻击与防御的研究者和安全工程师阅读。

💡 推荐理由: 多轮越狱攻击是当前 LLM 安全的主要威胁之一，D-Judge 首次提出通过破坏攻击者反馈循环来进行主动防御，极具创新性，且实验证明了其有效性，为安全从业者提供了新的防御思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Shuhao Zhang, Jiarui Li, Qi Cao, Ruiyi Zhang, Pengtao Xie

本文针对提示注入攻击的防御问题，指出现有检测器存在异质性：每个检测器在不同攻击类型上表现各异，没有单一检测器始终可靠。然而，现有系统仍采用固定单检测器流水线，将每个请求都交给同一个检测器处理，从而暴露于其盲区。作者提出将防御重新定义为检测器分配问题：给定一个异构检测器池，针对每个请求决定运行哪些检测器，以及是否升级到LLM法官。为此，他们提出了SCOUT（Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage）框架，通过预测每个检测器在类似历史输入上的样本级可靠性和延迟，实现动态分配决策，并向外暴露一个安全-效用阈值供操作员调节（效用包括良性通过率和墙钟时间）。为了评估该设置，他们构建了SCOUT-450基准，该基准包含了结构复杂、面向代理的注入攻击，这些攻击在旧的提示注入数据集中代表性不足。在SCOUT-450上，与始终启用GPT-4o法官相比，安全导向的工作点将攻击成功率降低46%，总墙钟时间减少40%，而良性效用仅下降5.1个百分点。SCOUT还能迁移到三个外部基准（BIPIA、IPI、IHEval），改进了安全-效用前沿。

💡 推荐理由: 该工作提出了一个新颖的防御范式，通过预测性检测器分配替代固定流水线，显著提升安全性与效率，尤其适用于需要多步骤推理的Agent场景。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Nima Dorzhiev, Peng Liu

本文针对大型语言模型（LLM）智能体面临的提示注入攻击，提出了一种增强的多态提示组装（PPA）防御方法。原始的PPA通过从固定池中随机选择分隔符对来隔离用户输入与系统指令，但存在静态池复用导致的“爆炸半径”漏洞：一旦某个分隔符泄露，可在后续请求中被利用。作者提出动态、按请求生成分隔符的方法，利用基于时间戳、会话标识符和加密随机数的域分隔SHA-256摘要，为每个组装提示生成唯一的（BEGIN, END）金丝雀对，从而将泄露暴露限制在单个请求内。在Llama-3.3-70B-Instruct-Turbo模型上针对16种注入载荷进行评估，并在DeepSeek-V4-Flash模型上进行跨模型验证。针对M1混淆载荷（leet speak加紧迫性），动态模式将攻击成功率（ASR）从0.88降至0.38，实现2.3倍的缓解效果，且95% Wilson置信区间无重叠，具有统计显著性。针对format_breakout_salad攻击，静态模式下的分隔符泄露率（0.467）在动态模式下完全消除（0.000），证实了爆炸半径的减小。该实现无需模型微调，每个请求仅增加2.7微秒的提示组装开销，且向后兼容现有PPA SDK。该研究为LLM智能体安全提供了实用、高效的防御增强方案。

💡 推荐理由: 提示注入攻击是LLM应用的核心威胁，本文提出的动态分隔符生成方法在不牺牲性能的前提下显著降低攻击成功率，并消除静态池复用漏洞，对部署LLM智能体的团队具有直接防御价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yinyuan Zhang, Cuiying Gao, Yueming Wu 0001, Shihan Dou, Cong Wu 0003, Ying Zhang 0066, Wei Yuan 0001, Yang Liu 0003

本文提出了一种名为“Fighting Fire with Fire”的连续攻击方法，用于对抗Android恶意软件检测系统。研究背景是当前Android恶意软件检测模型容易受到对抗样本攻击，而现有的防御方法往往被动且效果有限。核心问题是如何主动且持续地生成对抗样本以训练更鲁棒的检测模型。方法上，作者设计了一种迭代攻击框架，能够在检测模型不断更新的过程中持续生成高效对抗样本，形成攻击与防御的博弈。实验表明，该方法能显著降低多种主流检测模型（如Drebin、MalDozer）的准确率，并证明通过这种连续攻击训练出的模型在对抗性上比传统对抗训练更具鲁棒性。主要贡献包括：1) 首次提出连续攻击范式；2) 揭示了静态对抗训练的局限性；3) 提供了一种新的评估检测模型鲁棒性的方法。适合安全研究人员及Android安全工程师阅读。

💡 推荐理由: 对抗攻击是安全模型部署的主要威胁，本文提出的连续攻击方法能帮助蓝队更真实地评估和增强检测模型的鲁棒性，具有直接防御价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yilan Gao, Sida Huang, Hongyuan Zhang, Xuelong Li

本文针对文本到图像生成模型（如 Stable Diffusion）在作为云端 API 服务部署时面临的模型窃取攻击展开研究。攻击者可以通过反复查询 API 收集大量生成的合成图像，并用这些图像训练私有替代模型，从而实现未经授权的知识蒸馏和能力复制，而无需访问原始模型权重。现有防御方法难以在保持输出图像视觉质量、提供显式扰动幅度控制以及高效处理大规模输出之间取得平衡。为此，作者提出了一种基于单次生成器（single-pass）的保护框架 WaveGuard。WaveGuard 采用频率感知的扰动生成器，在用户指定的扰动预算下对每张合成图像注入结构化、不可感知的扰动。这些扰动对于正常观看者几乎不可见，但能显著降低受保护图像作为训练数据对未授权学生模型的有效性。在 WikiArt 数据集上的合成输出蒸馏实验表明，WaveGuard 在有效性、保真度和效率三者之间取得了良好权衡，实现了显式的不可感知性控制，并大幅提升了保护效率。该方法不需要修改原始生成模型，仅需在输出图像上叠加扰动，可无缝集成到现有 API 管道中。

💡 推荐理由: 随着生成式AI服务商业化，模型窃取成为重大安全威胁。本文提出一种实用、高效的防御方案，在不影响用户体验的前提下干扰攻击者训练替代模型，对保护商业模型知识产权具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yasmine Hayder

知识图谱（KG）作为链接数据的强大表示，具有灵活性、语义丰富性，并支持知识丰富化和推理，帮助数据所有者组织和利用异构数据提供个性化服务。然而，真实世界的知识图谱往往不完整，隐藏了真实事实或缺失有价值信息。知识图谱嵌入（KGE）技术常用于推断缺失信息，但基于KGE的推理可能无意中暴露敏感用户属性，即使此类数据未显式存储。本文研究了KGE推理带来的隐私风险，重点关注属性推断攻击：攻击者试图从看似非敏感的输出中推断用户敏感属性。我们提出并评估了一个框架，通过对KGE输出应用后处理消毒技术来缓解这些隐私风险。初步结果表明，此类攻击对KGE模型输出有效，并探索了采用随机化方法时推荐质量与隐私保护之间的权衡，突出了未来需要尝试更先进技术以解决该问题的必要性。

💡 推荐理由: 揭示知识图谱嵌入在推理过程中可能泄露用户敏感属性的隐私风险，为防御方设计隐私保护机制提供依据。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Jiahe Guo, Xiangran Guo, Jiaxuan Chen, Weixiang Zhao, Yanyan Zhao, Yutai Hou, Qianchao Wang, Dandan Tu, Bing Qin

多模态大语言模型（MLLM）在文本模态中学习到的安全能力往往无法泛化到语义等价的非文本输入（如图像、视频），导致持续的多模态安全差距。本文从表示几何的角度研究这一现象，通过分析文本对齐的拒绝方向（refusal direction）和模态引起的漂移方向（drift direction），发现多模态输入会压缩沿拒绝方向的可分离性，使得该方向不再可靠地识别和拒绝有害输入，作者将此失效模式命名为“安全几何崩溃”（Safety Geometry Collapse）。为了量化该崩溃，论文提出了条件拒绝可分离性（conditional refusal separability）指标，并证明模态漂移越强，拒绝可分离性越弱，攻击成功率越高。通过固定强度的激活干预实验，作者验证了模态漂移的因果作用：沿估计的漂移方向反向干预可以恢复拒绝可分离性并提升多模态安全性。有趣的是，在漂移校正后，模型展现出自我纠正（self-rectification）现象，即在前向传播过程中自动恢复识别和拒绝有害多模态输入的能力，该效应还提供了模型对输入危害程度的内部信号。基于这一信号，作者提出ReGap（Rectify Gap），一种无需训练的推理时自适应漂移校正方法。在多个多模态安全基准和实用基准上的实验表明，ReGap能够显著提升MLLM的安全性，且不损害通用能力。该研究揭示了表示级别的模态对齐对于实时安全改进和构建更安全可靠MLLM的关键作用。

💡 推荐理由: 首次从表示几何角度揭示多模态安全差距的根本原因，并提出无需重训练的推理时防御方法，对当前多模态大模型的安全部署具有直接参考价值。

🎯 建议动作: 研究跟进：建议安全研究团队复现论文核心实验，评估ReGap在自有场景下的有效性，并探索其与现有安全对齐技术的结合

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jinseob Jeong, Dongkwan Kim 0001, Joon-Ha Jang, Juhwan Noh, Changhun Song, Yongdae Kim

该论文针对无人机系统面临的新型声学注入攻击进行了系统性研究，旨在揭示此类攻击的根本原理并设计相应的恢复机制。作者首先分析了无人机的惯性测量单元（IMU）在受到声波干扰时可能产生的异常输出，这种干扰可导致无人机姿态估计错误，进而影响飞行稳定性。通过建立声学注入的物理模型，论文明确了攻击频率、振幅与IMU误读之间的数学关系。在此基础上，提出了一种基于多传感器融合和异常检测的恢复方法，该方法利用加速度计与陀螺仪的冗余特性，在检测到声学干扰后动态调整传感器权重，并采用卡尔曼滤波对姿态进行修正。实验在多种商用无人机平台上进行，表明该方法能在不同声学攻击场景下有效恢复姿态估计精度，将飞行偏差降低80%以上。该研究不仅深化了对声学侧信道攻击的理解，还为构建鲁棒的无人机控制系统提供了实用策略。

💡 推荐理由: 无人机在物流、巡检等场景日益普及，声学注入攻击可低成本干扰其飞行安全。本文提供了攻击原理分析与可落地的检测恢复方法，对防御方提升无人机抗干扰能力有重要参考价值。

🎯 建议动作: 研究跟进，评估该方法在自有无人机平台上的适用性。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yingjie Zhang, Tong Liu 0027, Zhe Zhao 0007, Guozhu Meng, Kai Chen 0012

该论文研究了大型语言模型（LLM）在面对越狱攻击时的脆弱性，发现了一个关键问题：在响应生成过程中，LLM区分安全与有害输出的能力会逐渐下降。实验表明，随着生成的进行，安全响应和有害响应的隐藏状态之间的可分离性不断减弱，这种“判别性消失”迫使模型在生成早期就做出合规性判断，从而限制了其识别逐渐形成的恶意意图的能力，导致安全微调方法在平衡安全性与实用性时失效，并无法察觉隐藏恶意。为了解决这一问题，论文提出了DEEPALIGN防御框架，通过在响应生成的中间点应用对比隐藏状态引导（contrastive hidden-state steering），增强有害与良性隐藏状态之间的分离，从而在整个生成过程中实现持续的内在毒性检测与干预。在多种不同架构和规模的LLM上的实验表明，DEEPALIGN能够将9种不同越狱攻击的成功率降至接近零或最低，同时保持模型能力并减少过度拒绝。配备DEEPALIGN的模型在拒绝具有挑战性的良性查询时错误率降低高达3.5%，标准任务性能下降不到1%，实现了安全-效用帕累托前沿的重大进步。

💡 推荐理由: 该研究揭示了LLM安全微调的根本缺陷，即生成过程中判别能力的消失，并提供了可落地的防御框架DEEPALIGN，显著提升安全-效用平衡，对AI安全领域具有重要启发。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Licheng Pan, Yunsheng Lu, Jiexi Liu 0005, Jialing Tao, Haozhe Feng, Hui Xue 0001, Zhixuan Chu, Kui Ren 0001

本文针对大语言模型（LLM）的“越狱”攻击机制展开因果分析研究。现有研究主要通过对潜在表示的探测来分析越狱提示，但往往忽略了可解释提示特征与越狱发生之间的因果关系。为此，作者提出了Causal Analyst框架，将LLM集成到数据驱动的因果发现中，以识别越狱的直接原因，并将其分别用于攻击与防御。该框架首先构建了一个包含35k次越狱尝试的数据集，涵盖7个LLM、100个攻击模板和50个有害查询，并人工标注了37个可读的提示特征。随后，通过联合训练基于LLM的提示编码和基于图神经网络的因果图学习，重建了从提示特征到越狱响应的因果通路。分析发现，“正面角色”（Positive Character）和“任务步骤数”（Number of Task Steps）等特定特征是越狱的直接因果驱动因素。基于这些因果洞察，作者开发了两个应用：一是“越狱增强器”，通过针对性地增强因果特征显著提升了在公开基准上的攻击成功率；二是“护栏顾问”，利用学到的因果图从混淆查询中提取真正的恶意意图。大量实验包括基线对比和因果结构验证证实了因果分析的鲁棒性，并证明其优于非因果方法。本文表明，从因果角度分析越狱特征是提升LLM可靠性的有效且可解释的途径。代码已开源。

💡 推荐理由: 首次从因果视角系统性地揭示LLM越狱的驱动机理，不仅解释了现有攻击为何成功，更提供了可操作的防御思路，有助于构建更鲁棒的护栏机制。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Liwei Zhang, Linghui Li, Xiaotian Si, Ziduo Guo, Xingwu Wang, Kaiguo Yuan, Bingyu Li

本文针对联邦学习中的成员推断攻击提出了一种统一的防御框架。成员推断攻击旨在判断某个特定数据样本是否被用于训练模型，严重威胁用户隐私。现有防御方法存在计算开销大或可用性-隐私权衡不佳的问题。作者提出通过知识蒸馏和贡献感知聚合来协同防御：首先，服务器利用全局模型对客户端更新进行蒸馏，生成软标签指导本地训练，减少过拟合从而降低成员推断风险；其次，引入贡献感知聚合机制，根据客户端数据质量动态调整聚合权重，使聚合器对异常更新更鲁棒。实验在多个基准数据集（如CIFAR-10、MNIST）上验证，结果表明该方法在保持模型可用性的同时，显著降低了成员推断攻击的成功率（AUC下降超过10%），且计算开销低于现有对抗训练方法。该框架无需修改客户端训练过程，易于部署。

💡 推荐理由: 联邦学习中的成员推断攻击是重大隐私威胁，本工作提供了一种实用且高效的统一防御方案，对隐私合规要求高的场景（如医疗、金融）有直接应用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Chenxiang Luo, David K. Y. Yau, Qun Song 0001

联邦学习（FL）允许多个客户端协同训练模型而不共享原始数据，但面临梯度反转攻击（GIA）的威胁，攻击者可从共享梯度中重建私有数据。现有防御方法要么在嵌入式平台上计算开销过高，要么无法同时保证隐私保护和模型效用，且许多方法易被了解防御细节的自适应攻击者绕过。为此，本文提出SVDefense，一种基于截断奇异值分解（SVD）的梯度混淆防御框架。SVDefense包含三项关键创新：1）自适应能量阈值（Self-Adaptive Energy Threshold），根据客户端脆弱性动态调整SVD截断阈值；2）通道级加权近似（Channel-Wise Weighted Approximation），有选择地保留关键梯度信息以维持模型训练效果，同时增强隐私保护；3）层级加权聚合（Layer-Wise Weighted Aggregation），在类别不平衡下实现有效的模型聚合。实验评估在图像分类、人类活动识别和关键词识别等多个应用上表明，SVDefense在提供强大隐私保护的同时对模型精度影响极小，且可在多种资源受限的嵌入式平台上实际部署。论文若被接收将公开代码。

💡 推荐理由: 联邦学习隐私保护是当前安全热点，SVDefense在资源受限设备上实现了高效抗梯度反转攻击的防御，且对模型精度影响小，为实际FL部署提供了实用方案。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xinyu Tang 0003, Saeed Mahloujifar, Liwei Song, Virat Shejwalkar, Milad Nasr, Amir Houmansadr, Prateek Mittal

本文针对机器学习模型中的成员推断攻击（Membership Inference Attacks）提出一种名为SELENA的隐私保护训练框架。成员推断攻击旨在通过模型对成员与非成员输入的差异行为推断某样本是否属于训练集，是衡量模型隐私泄露的关键指标。现有防御方法如差分隐私虽能提供可证隐私保障，但会显著降低模型效用。本文的目标是在保持模型效用（utility）的同时提高成员隐私，即实现经验性隐私保障。SELENA框架包含两大核心组件：第一，Split-AI集成架构，它将训练数据随机划分为多个子集，并在每个子集上独立训练模型；在推理阶段，对于每个输入样本，仅聚合那些训练数据中不含该样本的模型输出，从而阻断攻击者利用模型行为差异。作者证明Split-AI能防御一大类成员推断攻击，但仍可能受到自适应攻击。因此，第二组件采用自蒸馏（Self-Distillation）方法，通过Split-AI集成对训练数据集进行自蒸馏，无需外部公共数据集，进一步增强对更强攻击的鲁棒性。在多个基准数据集上的实验表明，SELENA在成员隐私与效用之间实现了优于现有技术的权衡。本文适合机器学习安全研究人员、隐私保护从业者以及关注模型隐私泄露的工程师阅读。

💡 推荐理由: 成员推断攻击是评估机器学习模型隐私风险的核心方法，SELENA在保持模型高性能的同时显著提升隐私，为实际部署提供实用方案。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)