#influence-functions 主题 - Cyber Security Daily Radar

👥 作者: Zayd Hammoudeh, Daniel Lowd

本文研究训练集攻击（如数据投毒）的目标识别问题。攻击者通过修改部分训练样本，使模型对特定测试样本产生错误预测。现有防御主要检测中毒样本，但难以定位攻击者试图破坏的具体目标。作者提出基于重归一化影响估计（Renormalized Influence Estimation）的方法，通过修正影响函数在中毒数据下的偏差，准确识别攻击目标。核心思路是计算每个训练样本对目标测试样本的贡献，并利用重归一化消除中毒样本间的相互干扰，从而定位最具恶性影响的训练样本。实验在多个数据集和攻击场景下验证，该方法能高效且高精度地识别攻击目标，优于基线方法。该工作首次将影响函数应用于训练集攻击目标识别，为机器学习安全提供了新视角。

💡 推荐理由: 训练集攻击是机器学习安全的核心威胁，识别攻击目标可帮助防御者快速响应、定位受损资产，提升ML系统的可信与可控性。