#machine learning security 主题 - Cyber Security Daily Radar

👥 作者: Jiayun Fu, Xiaojing Ma 0002, Bin B. Zhu, Pingyi Hu, Ruixin Zhao, Yaru Jia, Peng Xu 0003, Hai Jin 0001, Dongmei Zhang 0001

该论文研究分割学习（Split Learning）场景下的劫持攻击防御问题。分割学习是一种分布式机器学习范式，允许多个参与方在不共享原始数据的情况下协作训练模型，但存在安全漏洞：攻击者可能劫持模型参数或梯度，窃取敏感信息。作者提出了一种名为“Pinocchio's Nose”的梯度审查器（Gradients Scrutinizer），通过利用内在属性（intrinsic attributes）来检测和防御分割学习中的劫持攻击。具体地，该方法从梯度中提取统计特征（如均值、方差、高阶矩等），并基于这些特征构建分类器，以区分正常梯度与被劫持的恶意梯度。实验在多个数据集（如CIFAR-10、MNIST、ImageNet）和模型架构（如ResNet、VGG）上进行，结果表明该方法能够以高精度检测多种劫持攻击（包括替换、添加噪声、反向梯度等），且对模型训练性能的影响极小。核心贡献包括：(1) 首次从梯度内在属性角度系统分析分割学习劫持攻击的可检测性；(2) 设计轻量级、模型无关的防御机制，无需修改训练协议；(3) 在多种攻击场景下验证了方法的有效性和鲁棒性。该研究为分割学习的安全部署提供了实用的检测工具。

💡 推荐理由: 分割学习广泛应用于医疗、金融等隐私敏感场景，但劫持攻击可导致数据泄露。该论文提出了首个基于梯度内在属性的通用检测方法，能高效识别多种攻击，填补了该领域的防御空白。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Tianshuo Cong, Xinlei He 0001, Yun Shen, Yang Zhang 0016

该论文针对测试时自适应（Test-Time Adaptation, TTA）模型提出了一种新颖的测试时投毒攻击方法。TTA旨在解决模型部署后因数据分布偏移导致的性能下降问题，通过在测试阶段根据测试样本分布持续微调预训练模型来提升泛化能力。然而，这种动态调整机制也引入了一个新的攻击面：攻击者可以在测试阶段注入精心构造的恶意样本，干扰模型的适应过程，从而显著降低其性能。作者首次系统性地研究了针对四种主流TTA方法（TTT、DUA、TENT和RPL）的测试时投毒攻击。攻击流程为：攻击者基于替代模型生成投毒样本，然后将这些样本混合到正常的测试数据流中，馈送给目标TTA模型。实验在多个图像分类基准数据集上进行，结果表明所有四种TTA方法均对测试时投毒攻击高度脆弱。例如，在CIFAR-10到CIFAR-10-C的分布偏移场景下，仅需向目标模型输入10个投毒样本，其分类准确率便从76.20%骤降至41.83%。此外，论文还探讨了不同投毒策略（如目标类别选择、投毒样本数量、替代模型结构与目标模型的一致性）对攻击效果的影响，发现即使替代模型与目标模型不完全一致，攻击仍能有效实施。该研究的核心贡献在于：首次揭示了TTA方法在安全评估上的缺失，证明了此类算法在缺乏防御机制的情况下不适合直接部署于真实环境。作者呼吁未来TTA设计应集成针对测试时投毒攻击的防御措施，例如异常检测、鲁棒微调或输入验证。

💡 推荐理由: 测试时自适应（TTA）是提升模型泛化能力的关键技术，广泛应用于计算机视觉、自然语言处理等领域的部署场景。本文揭示TTA存在严重安全漏洞：攻击者只需少量投毒样本即可大幅降级模型性能，威胁实际系统的可靠性。安全从业者需认识到这一新攻击面，并在评估和部署TTA模型时考虑防御。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hanbin Hong, Xinyu Zhang 0016, Binghui Wang, Zhongjie Ba, Yuan Hong 0001

本文首次提出了一种具有可证明保证的黑盒攻击新范式——可认证黑盒攻击，该攻击能够在查询目标模型之前就保证对抗样本的攻击成功概率（ASP）。与传统的基于查询或迁移性的经验性黑盒攻击不同，这种新攻击揭示了机器学习模型在理论层面上的显著脆弱性。作者建立了一套新颖的理论基础，通过随机化对抗样本来确保ASP的理论保证，无需在目标模型上进行验证或查询。在此基础上，提出了多种创新技术来生成随机化对抗样本，同时减小扰动幅度以提高不可感知性。实验在CIFAR-10/100、ImageNet和LibriSpeech数据集上进行，与16种现有最优黑盒攻击进行了全面对比，并针对计算机视觉和语音识别领域多种最新防御方法进行了测试。理论和实验结果均验证了该攻击的有效性和显著性，表明其能够以可证明的置信度突破强防御，构造出拥有高ASP的无限对抗样本空间。该工作对机器学习安全性研究具有重要理论意义，同时也对现有防御体系提出了严峻挑战。

💡 推荐理由: 该攻击首次从理论上保证了黑盒攻击的成功概率，打破了现有防御的有效性，为攻击方提供了可量化的置信度，可能迫使防御方法进行根本性革新。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Quan Yuan, Zhikun Zhang 0001, Linkang Du, Min Chen 0032, Mingyang Sun, Yunjun Gao, Shibo He, Jiming Chen 0001

视频识别系统在内容推荐、安全监控等领域日益普及。许多机构发布了高质量公开数据集（附有开源许可）以推动模型训练，但这些数据集也面临滥用和侵权风险。数据集版权审计是识别未经授权使用的有效手段，然而现有方案主要针对图像领域，视频数据因其额外的时间维度，为审计的有效性和隐蔽性带来巨大挑战。本文提出 VICTOR——首个面向视频识别系统的数据集版权审计方法。VICTOR设计了一种通用且隐蔽的样本修改策略，仅修改少量样本（如1%），即可显著放大目标模型在修改后样本上的输出差异。通过对比模型对已发布修改样本和未发布原始样本的行为差异，可作为数据集审计的关键依据。作者在多个模型和数据集上进行了大量实验，验证了 VICTOR 的优越性，并证明其对训练视频或目标模型的多种扰动机制具有鲁棒性。该工作填补了视频领域数据集版权审计的空白，为保护数据集知识产权提供了新思路。

💡 推荐理由: 视频数据集版权保护长期被忽视，VICTOR首次提出有效审计方案，帮助机构检测模型是否在未授权视频数据上训练，维护数据贡献者权益。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#machine learning security

Focusing on Pinocchio's Nose: A Gradients Scrutinizer to Thwart Split-Learning Hijacking Attacks Using Intrinsic Attributes.

Test-Time Poisoning Attacks Against Test-Time Adaptation Models.

Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence.

VICTOR: Dataset Copyright Auditing in Video Recognition Systems.

#machine learning security

Focusing on Pinocchio&apos;s Nose: A Gradients Scrutinizer to Thwart Split-Learning Hijacking Attacks Using Intrinsic Attributes.

Test-Time Poisoning Attacks Against Test-Time Adaptation Models.

Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence.

VICTOR: Dataset Copyright Auditing in Video Recognition Systems.

Focusing on Pinocchio's Nose: A Gradients Scrutinizer to Thwart Split-Learning Hijacking Attacks Using Intrinsic Attributes.