#tabular-data 主题 - Cyber Security Daily Radar

👥 作者: Xin Che, Lingyang Chu, Qiqi Zhang, Xinyu Ma, Xuan Luo, Jian Pei

该论文针对生成式表格数据的水印技术面临的重训练攻击问题，提出了一种具有放射性的水印方法RaMark。现有水印方法在攻击者利用带水印数据集重新训练生成模型后，生成的高效用数据会丢失水印，导致所有权验证失效。RaMark通过将正弦依赖性作为数据分布的内在组成部分嵌入，使水印与底层数据分布耦合，从而确保任何保留数据效用的生成模型也必须保留水印。理论分析表明，移除水印会以高概率降低数据效用并改变数据分布。在两个真实表格数据集上，基于大规模所有权验证场景（包含10^5个独立数据所有者）的实验证明，RaMark在抵抗重训练攻击和数据修改攻击方面显著优于七种最新方法。该研究为隐私敏感数据共享中的所有权保护提供了新途径，适合从事数据安全、生成模型水印研究的学者和工程师阅读。

💡 推荐理由: 首次提出放射性水印概念，从根本上解决了生成式表格数据水印在重训练攻击下失效的问题，强化了数据所有权验证的鲁棒性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Vinícius Gabriel Angelozzi, Héber H. Arcolezi

该论文针对差分隐私（DP）合成表格数据中的公平性问题进行了首次系统性基准评估。研究背景是机器学习模型在高风险领域（如金融、医疗）的部署日益普遍，隐私和公平性成为关键关注点。差分隐私已成为隐私保护数据分析的金标准，而公平性机制旨在减轻对弱势群体的歧视。然而，这两项目标可能相互冲突：DP通常放大不同人口统计学群体间的差异，而现有公平性干预措施在DP约束下的有效性尚不清楚。论文的核心方法是以自适应迭代机制（AIM）作为最先进的基于边缘的DP合成器，在四个数据集上、多种群体公平性指标、三类缓解策略（预处理、处理中、后处理）以及广泛的隐私预算下评估公平性干预。比较了四种管线配置：（1）基线（原始数据训练）；（2）仅DP（DP合成数据训练）；（3）仅公平（在原始数据上应用公平性机制）；（4）DP+公平（结合公平性机制与DP合成数据）。主要实验结果表明：仅DP会损害效用和公平性，但应用公平性干预可以部分恢复公平结果。其中，后处理方法在不同隐私预算和合成器下提供更稳定的公平-效用权衡，在保持竞争力的效用同时实现强公平改进。论文贡献包括首次全面评估、开源代码和数据以支持可复现性，并为隐私-公平-效用权衡的未来研究提供基础。适合关注差分隐私、公平性机器学习以及数据合成的研究人员和从业者阅读。

💡 推荐理由: 该研究揭示了差分隐私与公平性之间的冲突，并系统评估了在不同隐私预算下公平性干预的有效性，为安全从业者在隐私保护与公平性之间的权衡提供了实用指导。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Matan Ben-Tov, Daniel Deutch, Nave Frost, Mahmood Sharif

该论文提出了CaFA（Cost-aware Feasible Attacks）系统，旨在评估神经网络表格分类器在实际应用中对抗攻击的鲁棒性。表格数据具有结构化特征和复杂的相互关系，现有对抗攻击方法往往忽略攻击的可行性（即对抗样本在问题空间中是否可实现）以及攻击者的成本（如扰动特征数量和幅度）。CaFA通过两个核心组件解决这些问题：（1）TabPGD算法，一种针对表格数据定制的投影梯度下降变体，能够生成特征空间中的对抗扰动，同时考虑表格特征的异质性（如分类和连续特征）；（2）利用数据库技术中自动挖掘的完整性约束（如函数依赖、否定约束等）将特征空间的对抗样本投影到满足这些约束的可行区域，从而确保生成的对抗样本在现实世界中可实现。在三个数据集（如信用卡欺诈检测、贷款审批等）和两种神经网络架构上的实验表明，CaFA相比基线方法（如FGSM、PGD等）具有更高的可行成功率（即被误分类且满足约束的样本比例），同时扰动的特征数量更少、幅度更低，使得攻击更隐蔽且成本更低。此外，CaFA挖掘的约束在声音性和完备性方面优于先前工作。论文还开源了CaFA系统，希望为机器学习工程师提供通用工具，评估模型对可实现攻击的鲁棒性，从而提升部署模型的信任度。

💡 推荐理由: 表格数据在金融、医疗等领域广泛使用，但现有对抗攻击方法常忽视现实可行性。CaFA通过数据库约束确保攻击可实现，为评估表格分类器真实鲁棒性提供了更严格的方法，对构建可信AI具有直接价值。

🎯 建议动作: 研究跟进：评估CaFA对自身表格模型的测试效果，并考虑将其纳入鲁棒性评估流程。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Behrad Tajalli, Stefanos Koffas, Stjepan Picek

机器学习中的后门攻击旨在通过向训练数据中植入恶意样本，使模型在遇到特定触发器时产生攻击者指定的输出。现有研究多聚焦于图像等同质数据，而表格数据因同时包含数值和类别特征，其异构性使得攻击设计更具挑战。本文提出CatBack，一种针对表格数据的通用后门攻击方法。核心创新在于提出一种新的类别特征编码技术：将类别值转换为浮点数表示（而非传统的独热或序数编码），该编码能保留足够信息以保证正常模型的准确率。基于此编码，攻击者可以构建一个基于梯度的通用扰动，该扰动可同时作用于数值和类别特征，形成统一的触发器。在训练阶段，将带有此扰动的样本（后门样本）注入训练集，并标记为攻击目标标签；模型学习后，任何输入若被施加该通用扰动，都会预测为目标标签。作者在5个数据集（涵盖分类与回归任务）和4种流行模型（如决策树、神经网络等）上评估了CatBack，实验显示无论在白盒还是黑盒设置（包括在Google Vertex AI平台上）下，攻击成功率均高达100%。更关键的是，该方法能有效绕过现有多种防御机制，包括Spectral Signatures、Neural Cleanse、Beatrix和Fine-Pruning，以及常见的异常检测方法（如孤立森林）。与已有工作Tabdoor相比，CatBack在攻击成功率、隐蔽性和通用性上均有显著提升。本文揭示了表格数据在机器学习安全中的一个严重脆弱性，表明传统的防御手段在此类新型攻击面前失效，亟需针对异构数据设计更鲁棒的防御方案。

💡 推荐理由: 表格数据在金融风控、医疗诊断、工业检测等关键领域广泛应用，此攻击能绕过现有主流防御，威胁真实ML管线的安全性与可靠性，值得安全从业者高度关注。

🎯 建议动作: 研究跟进，评估自身表格模型对此类攻击的脆弱性，关注未来可能出现的新防御方法。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#tabular-data

RaMark: Radioactive Watermarking for Generated Tabular Data

Where to Intervene? Benchmarking Fairness-Aware Learning on Differentially Private Synthetic Tabular Data

CaFA: Cost-aware, Feasible Attacks With Database Constraints Against Neural Tabular Classifiers.

CatBack: Universal Backdoor Attacks on Tabular Data via Categorical Encoding.