#classification 主题 - Cyber Security Daily Radar

👥 作者: Cédric Bonhomme, Alexandre Dulaunoy

该论文提出了一种可复现的流水线，用于从自由文本的漏洞描述中将 CVE 映射到 MITRE ATT&CK 企业技术。传统方法依赖 CWE->CAPEC->ATT&CK 的推导链，但论文量化了该链在表扩展过程中产生的伪影。作者基于 MITRE 威胁情报防御中心专家人工标注的 1,207 个 CVE 构建了金标准数据集，并训练了一个多标签分类器。实验表明，该模型在 recall@5 上比零样本嵌入相似度基线提升了约一倍，且所有排序指标均有改善。随后论文研究了是否可以利用 LLM 辅助标注来扩展金标准数据集。初步实验出现矛盾结论：单次运行显示性能下降，而五次随机种子平均显示小幅提升。然而，独立复现和扩展规模研究（新增 100 至 984 个 CVE）表明，表面的改进实际上是评估伪影。LLM 生成的标签与专家标注的一致性约为 0.39，在任何扩展规模下都无法提供可靠的改进，并且在新增约 1000 个 CVE 时降低了稀有技术的覆盖率（macro-F1 下降 0.04）。根本原因是评估噪声：在小测试集上选择检查点等效于在多次噪声评估上最大化，导致完全相同的运行之间 recall@5 差异高达 0.05。通过基于验证集检查点选择的修正协议，仅使用金标准数据的模型达到 recall@5 = 0.673 ± 0.019，重复决定性实验确认了 LLM 扩展的零结果。最终扩展研究表明，增加专家人工标注数据能够持续提升性能，而 LLM 标注的数据则不能，表明该分类器受限于标签质量而非数据集规模。所有数据集、模型、代码和训练日志均已公开。适合安全研究人员、威胁情报分析师以及参与 ATT&CK 映射自动化工作的蓝队成员阅读。

💡 推荐理由: 该研究系统性地验证了 LLM 在 CVE 到 ATT&CK 映射中的可靠性边界，警告业界不要盲目信任 LLM 扩展数据，并为构建高质量威胁情报分类器提供了基准协议和公开金标准数据集。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Huaiyuan Rao, Calvin Hawkins, Alexander Benvenuti, Matthew Hale

本文提出了一种端到端差分隐私（DP）训练框架，用于深度神经网络分类器。现有的DP机器学习方法通常同时对训练输入和标签进行隐私保护，但在标签可公开或可安全公开的场景下，这种保护过于保守。因此，作者提出仅对训练输入进行私有化，同时保持标签公开。该框架适用于具有softmax输出层的神经网络，softmax层的输出是一个到单位单纯形的映射。在训练过程中，作者通过应用Dirichlet机制对softmax输出进行随机化，从而对训练输入施加差分隐私，这也是“端到端”名称的由来。由于训练数据在多个训练周期中被重复使用，作者使用Rényi差分隐私来制定Dirichlet机制在重复使用下隐私强度的紧致界限。实验表明，在CIFAR10、MNIST、MedMNIST、FashionMNIST和SVHN数据集上，从零开始训练时，该方法在所有评估的隐私预算下均取得了最新的最高准确率。具体而言，当实现(ε, δ)-差分隐私且δ=10^{-5}时，在CIFAR10上，ε=4时准确率从之前的最优78.37%提高到88.17%；即使在ε=1时，该方法也达到了82.96%的准确率，显著优于先前工作。该方法的贡献在于：1）提出了仅对输入进行私有化的端到端DP训练框架，适用于标签公开的场景；2）利用Dirichlet机制和Rényi DP提供了严格的隐私分析；3）在多个标准数据集上实现了显著的精度提升，缩小了非私密与私密训练之间的差距。

💡 推荐理由: 本文针对标签可公开的场景提出了更高效的差分隐私训练方法，显著提升了模型精度，为隐私保护机器学习提供了新的实用框架。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Khawaja Abaid Ullah, Mohammad Javad Khojasteh

该论文研究了分类模型中的反蒸馏采样问题。知识蒸馏攻击中，攻击者通过查询目标分类器的预测接口，利用返回的概率向量训练一个替代模型，从而窃取模型功能。此前针对大语言模型提出的反蒸馏采样方法通过输入相关的梯度导向扰动来防御此类攻击，但该方法在分类任务中的迁移尚未被研究。本文首先将反蒸馏采样迁移至分类场景，并发现其行为由教师模型每个输入上的置信度边际分布决定。由于训练良好的分类器存在严重的过度自信现象，直接迁移会导致一个“惰性窗口”：当扰动低于某个可闭式预测的阈值时，既不阻碍攻击者也不保护防御者；超过阈值后，防御发生相变，对教师模型的退化速度快于攻击者的学生模型。温度软化可以在闭式上缩放该相变点，但所有温度配置都位于相同的不利权衡曲线上。为此，作者提出ADS-C方法，在闭式每个输入边际预算下组合扰动，该预算可证明保留每个服务的top-1预测，因此防御后的教师准确度与未防御教师完全一致。在该保证下，蒸馏学生模型在CIFAR-100上仍损失17.4个百分点，CIFAR-10上损失29.6个百分点，Tiny-ImageNet上损失13.3个百分点；而使用未经修改的防御达到相同的学生退化程度则需要牺牲教师27.5、32.9和22.2个百分点的准确度。由于服务标签不变，硬标签攻击者无法获益，而防御后的软输出训练的学生模型准确度甚至低于硬标签底线（最多低29.7个百分点）：蒸馏服务概率的动机不仅被消除，反而被逆转。据作者所知，ADS-C是第一个效用成本恰好为零的分类反蒸馏防御方法。

💡 推荐理由: 提出首个零效用损失的反蒸馏防御，有效防止攻击者通过概率查询复制分类器，同时不牺牲原始模型准确度，对保护商业或敏感分类模型具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Baogang Song, Zhongshu Zhao, Qianrong Zheng, Jianwen Xiang, Dongdong Zhao

针对生物特征模板保护（BTP）中存在的可比较表示泄露、辅助数据依赖、与具体模态耦合等问题，本文提出了一种名为多置换标签分类器编码（MPLCE）的新方法。其核心思想是利用身份分类的固有特性——将变化的生物特征样本映射到稳定且具判别性的身份级输出。MPLCE 为每个分类器分配独立的标签置换，使得同一身份在不同分类器中被赋予不同标签；将这些预测标签编码并拼接形成中间模板，然后与特定应用的异或字符串随机化，最后进行密码学哈希。这一设计避免了单个身份标签的重复编码，扩大了有效候选空间，同时通过分类一致性保证准确率。由于采用加密哈希精确匹配验证，无需纠错码或依赖生物特征的辅助数据。MPLCE 支持多种模态，只需替换相应分类器即可。在四个面部数据集（如 YTF、CASIA-WebFace 等）和两个虹膜数据集（CASIA-Iris-Lamp 等）上，MPLCE 取得了具有竞争力的性能：在 YTF 上误识率（FAR）为 5.51×10⁻⁵% 时识别率（GAR）达 98.61%；在 CASIA-Iris-Lamp 上 FAR 为 0.00% 时 GAR 达 99.10%。安全性分析验证了在威胁模型下模板的不可逆性、可撤销性和不可链接性。该方法为生物特征模板保护提供了一种理论新颖且实践可行的方案，尤其适用于需要高安全等级的跨境认证、金融支付等场景。

💡 推荐理由: 提出了无需辅助数据、跨模态兼容的生物特征保护方案，通过哈希精确匹配避免了传统方法中的相似性结构泄露风险，对提升生物识别系统安全性有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Fabio De Gaspari, Dorjan Hitaj, Samuele Salaris, Luigi V. Mancini

该论文针对网络安全中加密数据片段识别的关键问题展开研究，特别是在勒索软件检测、数字取证和大规模数据分析等场景下，准确区分加密与压缩数据片段至关重要。然而，短片段缺乏结构信息且统计冗余度低，传统基于字节级分布的统计方法效果有限。近期机器学习方法通过从原始字节中学习微妙模式提升了性能，但大多依赖单模态表示，假设单一视角足以完成分类。论文指出，在仅获得512-2048字节小片段的低信息场景下，该假设成为根本性局限。为此，作者提出Triumvir，一种多模态、不确定性感知的集成架构，融合了原始字节片段的统计、序列和空间三种表示。通过广泛的实验分析，Triumvir在二分类任务中持续超越最先进方法，增益高达+4.5个百分点；在多分类任务中增益达+6.4个百分点。消融研究证实，结合多种模态至关重要，相比部分配置可获得最高+5个百分点的提升。该工作为低信息环境下加密流量分类提供了新思路，适合网络安全研究人员和从业者阅读。

💡 推荐理由: 加密数据识别是勒索软件检测和数字取证的核心，传统方法在小片段上失效。Triumvir通过多模态融合显著提升准确率，为实际安全工具提供了可落地的创新方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Matan Levi, Aryeh Kontorovich

本文提出了一种新颖的对抗训练方法，称为“分裂差异”（Splitting the Difference）。标准的对抗训练通常在提升模型鲁棒性的同时牺牲自然准确率，且试图为每个类别学习一个统一的决策边界来同时覆盖干净样本和对抗样本。作者反其道而行之，将每个原始类别拆分为两个独立的子类：“干净”（clean）和“对抗”（adversarial），从而将分类任务从K类扩展为2K类。虽然类别数量翻倍，但每个子类的决策边界变得简单得多，有利于模型学习。论文从理论上给出了该方法有效的条件论证，并通过实验在CIFAR-10数据集上取得了95.01%的近最优自然准确率，同时保持了显著的鲁棒性（针对多种攻击）。该方法在自然准确率要求极高的实际应用中具有优势，是对抗训练领域的一个重要创新。本文适合对深度学习鲁棒性、对抗样本防御感兴趣的研究者和工程师阅读。

💡 推荐理由: 对抗训练通常以牺牲自然准确率为代价换取鲁棒性，而本文方法在保持近最优自然准确率的同时赋予模型强鲁棒性，解决了实际部署中的关键痛点。

🎯 建议动作: 研究跟进，在内部数据集上复现并评估效果

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#classification

Mapping CVEs to MITRE ATT&CK Techniques: A Curated Gold-Set Classifier and the Limits of LLM-Assisted Label Expansion

End-to-End Differential Privacy in Training Deep Neural Network Classifiers

ADS-C: Antidistillation Sampling for Classification

From Classification to Consistent Templates: Multiple Permuted-Label Classifier Encoding for Biometric Template Protection

When Entropy Is Not Enough: Multi-Modal Classification of Encrypted and Compressed Data Fragments

Splitting the Difference on Adversarial Training.