#contrastive-learning 主题 - Cyber Security Daily Radar

👥 作者: Zhen Li, Gang Cao, Tian Zhang, Lifang Yu, Shaowei Weng

本文针对大规模生成模型快速发展导致的高度逼真AI生成图像泛滥问题，提出了一种新的通用合成图像检测框架RNSIDNet。现有取证网络通常依赖单一域表示和传统二分类优化，导致跨模型泛化能力差且对真实世界退化（如JPEG压缩、缩放等）鲁棒性不足。为了克服这些局限，作者设计了双分支架构：一方面，使用经注意力优化的CLIP骨干网络提取全局RGB语义特征；另一方面，利用Bayar卷积捕获高频噪声伪影，并通过特征级线性调制（FiLM）模块使RGB语义动态调制噪声特征。为了进一步增强表示判别性，提出了困难样本感知对比学习（HSCL）策略，通过显式惩罚难分类样本来重塑潜在特征空间，最大化真实图像与合成图像之间的判别边际。在8个公开基准数据集上的大量实验表明，该方法在泛化能力、鲁棒性和计算效率方面均达到最先进水平。论文提供了代码和数据集链接。该研究对数字图像取证、社交媒体虚假内容治理等领域具有重要参考价值。

💡 推荐理由: 生成的图像泛滥对社会信任构成严重威胁；本文提出一种高泛化性、鲁棒的检测方法，可提升蓝队应对AI生成内容滥用（如虚假新闻、身份伪造）的检测能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yizheng Chen 0001, Zhoujie Ding, David A. Wagner 0001

该论文聚焦于Android恶意软件检测中的概念漂移（concept drift）问题。现有机器学习分类器在训练时能达到很高的准确率（例如F1分数0.99），但部署后随着时间推移，由于恶意软件和良性应用的持续演化，分类器性能急剧下降——在仅6个月后，F1分数就降至0.76。为应对这一挑战，论文提出了一种结合对比学习（contrastive learning）与主动学习（active learning）的持续学习框架。核心思想是利用基于相似性的不确定性度量来对抗概念漂移，因为传统的不确定性采样在面对分布偏移时不够鲁棒。具体而言，作者提出了一种新的层次化对比学习方案（hierarchical contrastive learning），通过对样本进行多级特征对比，学习到更稳定、更具泛化能力的表示。同时，设计了一种基于相似性不确定性的样本选择技术，优先挑选那些模型预测最不确定且与已有样本特征差异最大的新样本，交予分析师标注后用于增量训练。实验基于长达七年的真实数据集进行评估，结果表明该方法在多个指标上显著优于先前主动学习基线：假负率从14%降至9%，假正率从0.86%降至0.48%，并且在整个七年时间跨度内保持了更加一致且稳定的性能。论文主要贡献在于：1）揭示了Android恶意软件检测中概念漂移的严重性；2）提出将对比学习无缝集成到主动学习流程中，以提升对概念漂移的鲁棒性；3）通过大量实验验证了该方法在长期部署场景下的有效性。适合从事移动安全、机器学习运维（MLOps）以及对抗性机器学习研究的读者阅读。

💡 推荐理由: Android恶意软件检测是移动安全的核心任务。该工作揭示了经典分类器因概念漂移快速失效的严重性，并提出结合对比学习的主动学习方案，可显著延长模型有效寿命，减少人工重新标注成本，对实际安全运营具有直接指导价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Minseok Choi, Seungbin Yang, Dongjin Kim, Subin Kim, Jungmin Son, Yunseung Lee, Jaegul Choo, Youngjun Kwak

本文提出了一种名为Membrane的自我演化防护栏，用于增强大型语言模型（LLM）智能体防御不断演化的越狱攻击。当前的安全对齐方法难以适应新型攻击，而基于微调的安全分类器无法实时更新，基于记忆的防护栏又容易对良性查询过度拒绝。Membrane通过构建对比安全记忆（CSM）来解决该问题：每个记忆单元记录阻止有害查询的条件，同时保留允许与之表面相似的良性查询的条件，从而形成对比对。无需重新训练模型，Membrane在每次有害交互后，将该交互及其良性对照物蒸馏为一个对比单元，并按攻击策略索引，使得同一单元能泛化至该策略下不同主题的变体。推理时，检索到的单元作为安全决策的上下文依据。在模型级安全基准HarmBench和智能体级安全基准AgentHarm上，Membrane在所有六种越狱攻击上取得最高F1分数。尤为重要的是，在AgentHarm上良性拒绝率仅为7-14%，远低于先前方法的28-85%。此外，记忆单元在跨攻击迁移下仍保持87-88%的F1，且对记忆投毒攻击具有稳定性。该方法适合LLM安全研究者、智能体系统开发者及蓝队防御工程师关注。

💡 推荐理由: Membrane提出了一种无需重训练的自适应防护方案，有效平衡了有害拦截与良性放行，特别适合需要动态防御的LLM智能体场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Jiangnan Zhu, Yuntao Wang, Shengli Pan, Yujie Gu

该论文提出了一种名为 Vol-Mark 的新型可逆零水印方法，用于保护远程医疗中 3D 医学体积数据的完整性和所有权。针对医学体积数据在网络共享中面临的数据篡改和未授权复制等安全风险，Vol-Mark 设计了两个核心组件：一是利用对比学习构建的体积特征提取器，能够高效提取具有判别性和稳定性的体积特征，增强对 3D 攻击的鲁棒性；二是引入了立方体差异扩展（c-DE）技术，基于三维整数小波变换将水印比特嵌入到低频系数的邻域体素中，通过扩展立方体内的体素差异来创建嵌入空间，并在提取时采用多数投票机制提高可靠性。该嵌入过程失真低且支持无损移除，从而保持医学体积数据的完整性和诊断精度。Vol-Mark 首先进行完整性验证，再通过假设检验进行所有权验证，以增强在数据篡改或水印移除攻击下的可靠性。实验结果表明，Vol-Mark 在常规、几何和混合攻击下均表现出优越的鲁棒性，在多数攻击场景下准确率（ACC）保持在 0.90 以上，显著优于现有方法。

💡 推荐理由: 医学体积数据是远程医疗的关键资产，其安全共享面临篡改和盗版风险。Vol-Mark 提供了一种可逆零水印方案，既能验证完整性又能在不损伤诊断精度的前提下确权，对保护患者数据和医疗知识产权具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mengyuan Sun, Yu Li 0006, Yunjie Ge, Yuchen Liu, Bo Du, Qian Wang 0002

本文提出了一种名为InverTune的多模态对比学习后门防御方法。多模态对比学习（如CLIP）易受后门攻击，攻击者可通过在训练数据中注入触发模式，使模型在测试时对带有触发器的样本产生恶意预测。现有防御方法通常假设攻击者仅篡改单模态或依赖干净数据，难以应对实际攻击。InverTune通过后门-对抗相关性分析（Backdoor-Adversarial Correlation Analysis）来检测并抵御后门。具体而言，该方法利用后门触发器与对抗性扰动之间的统计相关性，设计了一种新的训练范式，使模型在对比学习过程中自动抑制后门特征。实验在多个多模态数据集（如Flickr30K、MSCOCO）上验证了有效性，与现有防御相比，InverTune在保持下游任务性能的同时显著降低了后门攻击成功率，且不需要任何干净参考样本。本文主要贡献包括：首次将后门与对抗相关性引入多模态防御，提出无需干净数据的训练框架，以及在多个攻击场景下的鲁棒性验证。

💡 推荐理由: 多模态对比学习（如CLIP）被广泛用于图像检索、视觉问答等关键任务，其后门安全隐患可能被攻击者利用。InverTune提供了一种无需干净数据、通用性强的防御思路，对保护多模态AI系统具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bowen Sun, Chaozhuo Li, Yaodong Yang, Yiwei Wang, Chaowei Xiao

该论文针对大语言模型（LLM）面临的分解式越狱攻击提出了一种新型防御框架。分解式越狱攻击通过将恶意目标拆分为一系列看似无害的查询，使攻击者能够绕过安全防护，累积重构出被禁止的内容。在实际部署中，LLM面对连续、不可追溯的匿名请求流，其中混杂着隐蔽分布的对抗性查询，现有防御策略在无可靠用户元数据时无法跟踪全局历史上下文，且基于生成模型的实时监控计算开销过大。为此，作者提出TwinGate，一种状态ful双编码器防御框架。TwinGate采用非对称对比学习（ACL），将语义不同但意图匹配的恶意片段在共享潜在空间中聚类，同时利用并行的冻结编码器抑制良性主题重叠导致的误报。每个请求仅需一次轻量级前向传播，可在目标模型填充阶段并行执行，延迟开销可忽略。为评估方法并推动未来研究，作者构建了包含超过362万条指令、覆盖8600种恶意意图的综合数据集。在严格因果协议下的大规模语料评估中，TwinGate实现了高恶意意图召回率和极低的误报率，且对自适应攻击具有强鲁棒性。相较于有状态和无状态基线，该方法在吞吐量和延迟方面均显著优于同类方案。该研究适合LLM安全研究人员、AI红队成员以及致力于构建实用防御机制的工程师阅读。

💡 推荐理由: 分解式越狱攻击是当前LLM安全中的隐蔽威胁，TwinGate提出了一种高效的状态ful防御方案，在不依赖用户身份的前提下实现高精度检测，对实际部署场景具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Kecen Li, Chen Gong, Zinan Lin, Tianhao Wang, Xiaokui Xiao

该论文聚焦于差分隐私（DP）对比学习中的隐私-效用权衡问题。现有的DP对比学习方法因标准对比目标中样本间固有的强依赖性而遭受严重的效用退化：每个样本的梯度依赖于批次中的所有其他样本，这放大了DP噪声的影响。作者指出，有效的DP对比学习需要显式地减少这种内在的样本间依赖。为此，他们提出了DP-GCL，一个原则性的DP对比学习框架，通过限制组级贡献来结构化地限制梯度依赖。DP-GCL将每个批次划分为小的、不相交的组，并将可用的负样本限制在组内，从而局部化梯度影响并降低敏感度。为了弥补由此造成的负样本多样性损失，进一步引入了组内增强，在不增加隐私成本的情况下生成额外的负视图。在八个数据集上的大量实验表明，在实际隐私预算下，DP-GCL在单模态和多模态对比学习中均持续提升了现有技术水平：与现有DP对比方法相比，图像分类准确率提升5.6%，图像-文本检索准确率提升20.1%。该工作为部署或共享在敏感用户数据上训练的嵌入模型提供了更实用的隐私保护方案。

💡 推荐理由: 该研究解决了DP对比学习中严重的效用退化问题，为安全工程师在保护用户隐私的同时保持模型可用性提供了新思路，尤其适用于需要发布或共享嵌入向量的场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#contrastive-learning

Generalized Synthetic Image Detection with Enhanced RGB-Noise Representation Learning

Continuous Learning for Android Malware Detection.

Membrane: A Self-Evolving Contrastive Safety Memory for LLM Agent Defense

Vol-Mark: A Watermark for 3D Medical Volume Data Via Cubic Difference Expansion and Contrastive Learning

InverTune: A Backdoor Defense Method for Multimodal Contrastive Learning via Backdoor-Adversarial Correlation Analysis.

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

Differentially Private Contrastive Learning via Bounding Group-level Contribution