#adversarial-machine-learning 主题 - Cyber Security Daily Radar

👥 作者: Zayd Hammoudeh, Daniel Lowd

本文研究训练集攻击（如数据投毒）的目标识别问题。攻击者通过修改部分训练样本，使模型对特定测试样本产生错误预测。现有防御主要检测中毒样本，但难以定位攻击者试图破坏的具体目标。作者提出基于重归一化影响估计（Renormalized Influence Estimation）的方法，通过修正影响函数在中毒数据下的偏差，准确识别攻击目标。核心思路是计算每个训练样本对目标测试样本的贡献，并利用重归一化消除中毒样本间的相互干扰，从而定位最具恶性影响的训练样本。实验在多个数据集和攻击场景下验证，该方法能高效且高精度地识别攻击目标，优于基线方法。该工作首次将影响函数应用于训练集攻击目标识别，为机器学习安全提供了新视角。

💡 推荐理由: 训练集攻击是机器学习安全的核心威胁，识别攻击目标可帮助防御者快速响应、定位受损资产，提升ML系统的可信与可控性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xiaoyu Ji 0001, Yushi Cheng, Yuepeng Zhang, Kai Wang 0073, Chen Yan 0001, Wenyuan Xu 0001, Kevin Fu

该论文提出了一种名为“Poltergeist”的新型声学对抗机器学习攻击，针对配备图像稳定器的摄像头和计算机视觉系统。研究背景是自动驾驶车辆依赖基于计算机视觉的目标检测系统来感知环境并做出驾驶决策，而图像稳定器（通常包含惯性传感器）被用于减少摄像头抖动导致的图像模糊。然而，论文发现了一个系统级漏洞：攻击者通过发射精心设计的声学信号，可以操控惯性传感器的输出，触发不必要的运动补偿，即使摄像头本身稳定，也会产生模糊图像。这些模糊图像进而导致目标检测算法（如YOLO V3/V4/V5、Fast R-CNN以及百度Apollo）产生误分类，影响安全关键决策。论文建模了这种声学操控的可行性，并设计了攻击框架，能够实现三类攻击：隐藏对象（使检测器忽略真实物体）、创建对象（让检测器误认为存在虚假物体）以及改变对象（将物体误分类为其他类别）。实验评估证明了攻击的有效性。论文进一步提出了“AMpLe攻击”的概念，即一类新的系统级安全漏洞，源于对抗性机器学习与物理注入信息承载信号到硬件的结合。该研究揭示了硬件与软件交叉领域的新攻击面，对自动驾驶、安防监控等依赖视觉感知的系统的安全性提出了警示。

💡 推荐理由: 该研究揭示了物理世界声学攻击可绕过图像稳定器并干扰视觉AI系统，对自动驾驶等安全关键应用构成现实威胁，需业界重视硬件与算法协同防御。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Qingwen Zeng, Zhenghao Zhao, Yitian Yang, Yiqi Zhu, Fangchen Liu, Zhaoge Bi, Moe Thandar Kyaw Wynn, Kim-Kwang Raymond Choo, Huaming Chen

该论文是一篇针对金融科技（Fintech）领域人工智能系统可信赖性的综述研究。作者指出，当前人工智能已深度嵌入金融AI管道的各个环节（训练与更新、部署与推理、操作与监控反馈），然而这些管道在提供自动化与规模化优势的同时，也引入了新的攻击面——微小的算法扰动可能被放大为持续的系统级金融危害。现有综述要么将AI视为防御工具，要么以领域无关的方式分析对抗性机器学习，忽略了金融特有的约束条件（如会计合理性、非独立同分布联邦数据、持续重训练以及自动化放大的下游效应）。为此，论文提出了一个统一的、以生命周期为中心且机制驱动的分析框架。首先，将金融AI划分为三个生命周期阶段：训练与更新、部署与推理、操作/监控/反馈。然后，提出了“金融AI安全与鲁棒性分类法”（Financial AI Security and Robustness Taxonomy），系统整理了17种攻击子类型，涵盖数据与模型投毒、针对决策边界的对抗攻击、LLM中介工作流中的提示注入、以及深度伪造对KYC验证层的颠覆。针对每种子类型，论文分析了其算法策略、可行性约束、隐蔽性与持久性，以及下游金融后果。最后，论文识别了当前开放挑战，并规划了面向生命周期感知的压力测试和金融相关鲁棒性基准的研究议程。该工作适合金融安全研究人员、AI安全工程师以及金融监管科技从业者阅读，有助于系统性理解金融AI面临的安全威胁并指导防御设计。

💡 推荐理由: 本文首次从金融特有的约束视角系统梳理AI管道各环节的攻击面，弥补了现有综述领域无关的缺陷，为金融行业AI安全风险评估提供了结构化分类法，有助于蓝队识别和应对定制化威胁。

🎯 建议动作: 研究跟进，纳入内部威胁建模参考。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Kaixiang Zhao, Bolin Shen, Yuyang Dai, Shayok Chakraborty, Yushun Dong

该论文提出了 GraphIP-Bench，一个用于系统评估图神经网络（GNN）模型窃取攻击与防御的统一基准。作者指出，现有研究因数据集、威胁模型和评估指标不一致而无法回答“窃取GNN有多难”以及“能否阻止”这两个关键问题。GraphIP-Bench 在统一的黑盒协议下集成了12种模型提取攻击、12种防御方法（涵盖水印、输出扰动和查询模式检测三类）、10个公开图数据集（包含同质、异质和大规模图）、3种GNN骨干网络和3种图学习任务，并报告了保真度、任务效用、所有权验证和计算成本等指标。此外，还增加了联合攻击-防御赛道，对每个受保护目标运行所有攻击，并测量提取后替代模型上的水印验证效果。实验结果表明：在中等查询预算下，窃取GNN很容易，且大多数防御未能改变这一现状；多种水印在受保护模型上可靠验证，但在提取的替代模型上几乎失去验证信号，这暴露了单一模型评估遗漏的漏洞；异质图更难以窃取，而目标与替代模型之间的跨架构不匹配会降低但无法阻止提取。论文提供了开源代码。该研究对安全从业者理解GNN模型窃取风险及评估防御有效性具有重要参考价值。

💡 推荐理由: GNN云服务面临模型窃取攻击威胁，而现有评估缺乏统一标准。本文首次系统对比攻击与防御，揭示多数防御无效、水印易被移除等关键发现，为安全团队制定防护策略提供了实证依据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Yingzhe He, Guozhu Meng, Kai Chen 0012, Xingbo Hu, Jinwen He

本文提出了一种名为DRMI（基于互信息的数据集缩减技术）的方法，旨在优化黑盒攻击中的数据集使用效率。在黑盒攻击场景下，攻击者需要频繁查询目标模型以生成对抗样本，而数据集规模直接影响查询开销和攻击速度。DRMI通过计算样本与标签之间的互信息，量化每个样本对攻击成功率的贡献，从而筛选出最具代表性的子集，有效压缩训练数据集的大小。实验采用多种黑盒攻击算法（如遗传算法、基于梯度的替代方法）在CIFAR-10、ImageNet等标准数据集上进行验证，结果显示DRMI在缩减数据集至原规模的10%-30%时，仍能保持相近的攻击成功率（平均下降不超过2%），同时显著降低查询次数和时间成本。该方法的核心优势在于无需访问模型内部结构，适用于任意黑盒攻击流水线，并可作为预处理步骤集成到现有工具中。论文还探讨了不同互信息估计器的选择对结果的影响，并与随机采样、基于梯度的重要性采样等方法进行了对比，证明了DRMI在保持攻击效果方面的优越性。

💡 推荐理由: 研究揭示了攻击者如何通过数据筛选降低攻击成本，帮助蓝队理解黑盒攻击的经济性，从而针对性优化防御策略。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Behrad Tajalli, Stefanos Koffas, Stjepan Picek

机器学习中的后门攻击旨在通过向训练数据中植入恶意样本，使模型在遇到特定触发器时产生攻击者指定的输出。现有研究多聚焦于图像等同质数据，而表格数据因同时包含数值和类别特征，其异构性使得攻击设计更具挑战。本文提出CatBack，一种针对表格数据的通用后门攻击方法。核心创新在于提出一种新的类别特征编码技术：将类别值转换为浮点数表示（而非传统的独热或序数编码），该编码能保留足够信息以保证正常模型的准确率。基于此编码，攻击者可以构建一个基于梯度的通用扰动，该扰动可同时作用于数值和类别特征，形成统一的触发器。在训练阶段，将带有此扰动的样本（后门样本）注入训练集，并标记为攻击目标标签；模型学习后，任何输入若被施加该通用扰动，都会预测为目标标签。作者在5个数据集（涵盖分类与回归任务）和4种流行模型（如决策树、神经网络等）上评估了CatBack，实验显示无论在白盒还是黑盒设置（包括在Google Vertex AI平台上）下，攻击成功率均高达100%。更关键的是，该方法能有效绕过现有多种防御机制，包括Spectral Signatures、Neural Cleanse、Beatrix和Fine-Pruning，以及常见的异常检测方法（如孤立森林）。与已有工作Tabdoor相比，CatBack在攻击成功率、隐蔽性和通用性上均有显著提升。本文揭示了表格数据在机器学习安全中的一个严重脆弱性，表明传统的防御手段在此类新型攻击面前失效，亟需针对异构数据设计更鲁棒的防御方案。

💡 推荐理由: 表格数据在金融风控、医疗诊断、工业检测等关键领域广泛应用，此攻击能绕过现有主流防御，威胁真实ML管线的安全性与可靠性，值得安全从业者高度关注。

🎯 建议动作: 研究跟进，评估自身表格模型对此类攻击的脆弱性，关注未来可能出现的新防御方法。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversarial-machine-learning

Identifying a Training-Set Attack's Target Using Renormalized Influence Estimation.

Poltergeist: Acoustic Adversarial Machine Learning against Cameras and Computer Vision.

When AI Meets Wall Street: A Survey on Trustworthy AI in Fintech

GraphIP-Bench: How Hard Is It to Steal a Graph Neural Network, and Can We Stop It?

DRMI: A Dataset Reduction Technology based on Mutual Information for Black-box Attacks.

CatBack: Universal Backdoor Attacks on Tabular Data via Categorical Encoding.

#adversarial-machine-learning

Identifying a Training-Set Attack&apos;s Target Using Renormalized Influence Estimation.

Poltergeist: Acoustic Adversarial Machine Learning against Cameras and Computer Vision.

When AI Meets Wall Street: A Survey on Trustworthy AI in Fintech

GraphIP-Bench: How Hard Is It to Steal a Graph Neural Network, and Can We Stop It?

DRMI: A Dataset Reduction Technology based on Mutual Information for Black-box Attacks.

CatBack: Universal Backdoor Attacks on Tabular Data via Categorical Encoding.

Identifying a Training-Set Attack's Target Using Renormalized Influence Estimation.