#tabular-data

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Behrad Tajalli, Stefanos Koffas, Stjepan Picek

机器学习中的后门攻击旨在通过向训练数据中植入恶意样本,使模型在遇到特定触发器时产生攻击者指定的输出。现有研究多聚焦于图像等同质数据,而表格数据因同时包含数值和类别特征,其异构性使得攻击设计更具挑战。本文提出CatBack,一种针对表格数据的通用后门攻击方法。核心创新在于提出一种新的类别特征编码技术:将类别值转换为浮点数表示(而非传统的独热或序数编码),该编码能保留足够信息以保证正常模型的准确率。基于此编码,攻击者可以构建一个基于梯度的通用扰动,该扰动可同时作用于数值和类别特征,形成统一的触发器。在训练阶段,将带有此扰动的样本(后门样本)注入训练集,并标记为攻击目标标签;模型学习后,任何输入若被施加该通用扰动,都会预测为目标标签。作者在5个数据集(涵盖分类与回归任务)和4种流行模型(如决策树、神经网络等)上评估了CatBack,实验显示无论在白盒还是黑盒设置(包括在Google Vertex AI平台上)下,攻击成功率均高达100%。更关键的是,该方法能有效绕过现有多种防御机制,包括Spectral Signatures、Neural Cleanse、Beatrix和Fine-Pruning,以及常见的异常检测方法(如孤立森林)。与已有工作Tabdoor相比,CatBack在攻击成功率、隐蔽性和通用性上均有显著提升。本文揭示了表格数据在机器学习安全中的一个严重脆弱性,表明传统的防御手段在此类新型攻击面前失效,亟需针对异构数据设计更鲁棒的防御方案。

💡 推荐理由: 表格数据在金融风控、医疗诊断、工业检测等关键领域广泛应用,此攻击能绕过现有主流防御,威胁真实ML管线的安全性与可靠性,值得安全从业者高度关注。

🎯 建议动作: 研究跟进,评估自身表格模型对此类攻击的脆弱性,关注未来可能出现的新防御方法。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)