#machine-learning-security 主题 - Cyber Security Daily Radar

👥 作者: Mohamed Suliman 0002, Anisa Halimi, Swanand Ravindra Kadhe, Nathalie Baracaldo, Douglas J. Leith

本文重新评估了数据伪造攻击（data forging attacks）在实践中的可行性与强度。数据伪造攻击旨在提供反事实证据，证明模型是在某个数据集上训练的，而实际上却是用另一个数据集训练的。攻击者通过用小批量数据替换为包含不同训练样本但产生几乎相同梯度的批次来实现伪造。这种攻击被认为会破坏数据治理和审计，因为模型所有者可能将不合规的训练集伪造为合规的。然而，作者从实践和理论两个角度进行了批判性分析。实践上，当前攻击方法的关键局限性在于无法产生足够相同的梯度，从而使验证者能够轻易检测出伪造。理论上，作者分析了两个不同的小批量能否产生相同梯度的问题。研究发现，虽然可能存在无数个具有实值训练样本和标签的小批量产生相同梯度，但在受限域（如像素值0-255和one-hot标签）中找到这样的样本并非易事。这些结果表明，现有攻击的实际威胁可能被高估，需要重新评估其强度。该研究对机器学习隐私和数据合规领域具有重要启示，适合安全研究人员、数据审计专家和隐私合规从业者阅读。

💡 推荐理由: 数据伪造攻击若被证实可行，将严重威胁模型审计与数据合规。本文揭示其实际局限性，有助于蓝队正确评估风险，避免过度恐慌或忽视。

🎯 建议动作: 关注并评估数据伪造攻击的实际风险

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yibin Hu, Xiaolin Sun, Zizhan Zheng

本文针对基于模型的学习代理（model-based learning agents）中世界模型（world model）的微调阶段面临的数据投毒攻击问题，提出了SWAAP（Stealthy World Model Manipulation via Data Poisoning），这是首个两阶段数据投毒框架。在第一阶段，SWAAP通过一阶双层优化（first-order bilevel optimization）并利用过渡梯度定理（transition-gradient theorem）识别出一个有害的目标世界模型，该模型在保持与干净模型动态相近的同时，诱导规划（planning）产生低回报行为。在第二阶段，SWAAP通过隐身约束梯度匹配（stealth-constrained gradient matching）实现该目标，仅修改有限比例的微调转变目标（transition targets），使得诱导训练梯度将受害者模型推向对抗目标，同时预测误差正则化器（prediction-error regularizer）鼓励投毒目标保持在世界模型自然近似误差的范围内。为了评估攻击的隐蔽性，作者在投毒管线的三个阶段评估了防御和可检测性：训练前检测投毒转变、微调期间的鲁棒训练、以及测试时监控产生的世界模型。在多种连续控制任务中，SWAAP导致显著的性能退化，同时保持投毒转变与干净数据接近，并逃过了所评估的非自适应残差/CUSUM/TRIM风格的防御。这些结果揭示了世界模型适应管道中的一个实际漏洞，并强调了需要保护世界模型训练数据和学到的动态的鲁棒方法。适合安全研究人员、AI系统防御者以及强化学习从业者阅读。

💡 推荐理由: 该研究揭示了基于模型强化学习中世界模型微调管道的训练时攻击面，攻击者可通过少量数据投毒操纵模型导致低回报行为，且现有防御难以检测，对部署安全关键型自主代理构成威胁。

🎯 建议动作: 研究跟进，评估内部基于模型强化学习系统的数据投毒风险，探索鲁棒微调与异常检测方法。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ayushi Sharma, Rosemary Agbozo, Santiago Torres-Arias, Zahra Ghodsi

机器学习系统面临着多样化的威胁，这些威胁会破坏模型的鲁棒性、隐私性和公平性。尽管已有许多防御方法被提出，但每个防御通常只孤立地解决单一风险。在实际部署中，需要将这些防御组合起来同时满足多个保障需求。然而，防御的组合过程复杂且尚未被充分理解，其对性能和安全的影响仍不明确。本文提出了Landseer，一个模块化框架，用于将机器学习防御集成到ML生命周期中，并系统地评估它们的组合效果。Landseer将防御封装为容器化模块，使得现有和新技术可以以最小的工作量插入。其评估引擎自动化了跨多个指标的实验，支持对防御进行单独和组合研究。在一项初步研究中，作者识别了35种最先进的机器学习防御，经过可复制性过滤后，使用Landseer的统一评估流程分析了它们的性能。研究结果揭示了跨防御家族的可复制性差距，并为集成多种防御的挑战和机遇提供了见解，为改进机器学习系统的可靠性奠定了基础。该论文适合机器学习安全研究人员、防御系统设计者以及希望理解防御组合权衡的从业者阅读。

💡 推荐理由: 该工作首次系统研究ML防御的组合问题，弥补了当前单个防御评估与真实部署需求之间的鸿沟，为构建更可靠的ML系统提供了方法论和工具。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Cheng Chu, Qian Lou, Fan Chen, Lei Jiang

该论文提出了一种名为QNBAD（量子噪声诱导后门攻击）的新型攻击方法，针对量子机器学习（QML）中的零噪声外推（ZNE）防御。ZNE是当前量子计算中广泛使用的错误缓解技术，旨在通过外推拟合和处理噪声，提高量子计算的可靠性。QNBAD利用量子噪声的特殊性质——即攻击者通过操控特定量子比特的噪声水平，在神经网络中植入后门模式。这种后门仅在触发噪声模式时激活，导致模型输出预设的错误结果，而正常输入下模型精度几乎不受影响。实验在多个量子神经网络基准测试上进行，结果表明攻击成功率超过90%，同时模型在干净数据上的精度下降不足1%。该方法首次揭示了ZNE防御的脆弱性，表明即使采用先进的错误缓解技术，量子模型仍可能被恶意噪声诱导的后门所破坏。论文还讨论了对抗性噪声的生成策略和攻击的隐蔽性，指出检测此类攻击的难度较高。该研究对量子机器学习的安全性提出了新的挑战，提醒研究者在部署量子模型时需考虑对抗性噪声威胁。

💡 推荐理由: 为首次证明零噪声外推（ZNE）无法抵御恶意注入的量子噪声后门，揭示了量子机器学习中新的攻击面，对量子计算安全研究具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Behrad Tajalli, Stefanos Koffas, Stjepan Picek

机器学习中的后门攻击旨在通过向训练数据中植入恶意样本，使模型在遇到特定触发器时产生攻击者指定的输出。现有研究多聚焦于图像等同质数据，而表格数据因同时包含数值和类别特征，其异构性使得攻击设计更具挑战。本文提出CatBack，一种针对表格数据的通用后门攻击方法。核心创新在于提出一种新的类别特征编码技术：将类别值转换为浮点数表示（而非传统的独热或序数编码），该编码能保留足够信息以保证正常模型的准确率。基于此编码，攻击者可以构建一个基于梯度的通用扰动，该扰动可同时作用于数值和类别特征，形成统一的触发器。在训练阶段，将带有此扰动的样本（后门样本）注入训练集，并标记为攻击目标标签；模型学习后，任何输入若被施加该通用扰动，都会预测为目标标签。作者在5个数据集（涵盖分类与回归任务）和4种流行模型（如决策树、神经网络等）上评估了CatBack，实验显示无论在白盒还是黑盒设置（包括在Google Vertex AI平台上）下，攻击成功率均高达100%。更关键的是，该方法能有效绕过现有多种防御机制，包括Spectral Signatures、Neural Cleanse、Beatrix和Fine-Pruning，以及常见的异常检测方法（如孤立森林）。与已有工作Tabdoor相比，CatBack在攻击成功率、隐蔽性和通用性上均有显著提升。本文揭示了表格数据在机器学习安全中的一个严重脆弱性，表明传统的防御手段在此类新型攻击面前失效，亟需针对异构数据设计更鲁棒的防御方案。

💡 推荐理由: 表格数据在金融风控、医疗诊断、工业检测等关键领域广泛应用，此攻击能绕过现有主流防御，威胁真实ML管线的安全性与可靠性，值得安全从业者高度关注。

🎯 建议动作: 研究跟进，评估自身表格模型对此类攻击的脆弱性，关注未来可能出现的新防御方法。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hao Luan, Xue Tan, Zhiheng Li, Jun Dai 0001, Xiaoyan Sun 0003, Ping Chen 0003

本文提出一种基于自监督学习的模型提取攻击方法，旨在同时实现数据集缩减和水印移除。传统模型提取攻击通常需要大量查询和完整训练数据，且可能保留原始模型的水印。作者利用自监督学习（如对比学习）从目标模型中提取知识，仅需少量未标记样本即可训练一个紧凑的替代模型。该方法通过构建正负样本对进行对比学习，使替代模型模仿目标模型的表示空间，从而在减少数据集规模（例如仅需原始数据集的10%）的同时，有效消除嵌入在目标模型中的水印。实验在多个图像分类数据集（CIFAR-10, CIFAR-100, SVHN）和不同架构（ResNet, VGG）上进行，结果显示替代模型在保持高准确率（接近目标模型）的同时，水印移除成功率显著高于基线方法。该研究揭示了自监督学习在模型窃取中的潜力，对模型水印保护机制构成新挑战。

💡 推荐理由: 该研究暴露了自监督学习可被用于高效模型窃取并绕过水印保护，威胁模型知识产权和安全性，需引起防御方重视。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#machine-learning-security

Towards a Re-evaluation of Data Forging Attacks in Practice.

Stealthy World Model Manipulation via Data Poisoning

Landseer: Exploring the Machine Learning Defense Landscape

QNBAD: Quantum Noise-induced Backdoor Attacks against Zero Noise Extrapolation.

CatBack: Universal Backdoor Attacks on Tabular Data via Categorical Encoding.

Dataset Reduction and Watermark Removal via Self-supervised Learning for Model Extraction Attack.