#contrastive-learning

共收录 5 条相关安全情报。

← 返回所有主题
👥 作者: Minseok Choi, Seungbin Yang, Dongjin Kim, Subin Kim, Jungmin Son, Yunseung Lee, Jaegul Choo, Youngjun Kwak

本文提出了一种名为Membrane的自我演化防护栏,用于增强大型语言模型(LLM)智能体防御不断演化的越狱攻击。当前的安全对齐方法难以适应新型攻击,而基于微调的安全分类器无法实时更新,基于记忆的防护栏又容易对良性查询过度拒绝。Membrane通过构建对比安全记忆(CSM)来解决该问题:每个记忆单元记录阻止有害查询的条件,同时保留允许与之表面相似的良性查询的条件,从而形成对比对。无需重新训练模型,Membrane在每次有害交互后,将该交互及其良性对照物蒸馏为一个对比单元,并按攻击策略索引,使得同一单元能泛化至该策略下不同主题的变体。推理时,检索到的单元作为安全决策的上下文依据。在模型级安全基准HarmBench和智能体级安全基准AgentHarm上,Membrane在所有六种越狱攻击上取得最高F1分数。尤为重要的是,在AgentHarm上良性拒绝率仅为7-14%,远低于先前方法的28-85%。此外,记忆单元在跨攻击迁移下仍保持87-88%的F1,且对记忆投毒攻击具有稳定性。该方法适合LLM安全研究者、智能体系统开发者及蓝队防御工程师关注。

💡 推荐理由: Membrane提出了一种无需重训练的自适应防护方案,有效平衡了有害拦截与良性放行,特别适合需要动态防御的LLM智能体场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Jiangnan Zhu, Yuntao Wang, Shengli Pan, Yujie Gu

该论文提出了一种名为 Vol-Mark 的新型可逆零水印方法,用于保护远程医疗中 3D 医学体积数据的完整性和所有权。针对医学体积数据在网络共享中面临的数据篡改和未授权复制等安全风险,Vol-Mark 设计了两个核心组件:一是利用对比学习构建的体积特征提取器,能够高效提取具有判别性和稳定性的体积特征,增强对 3D 攻击的鲁棒性;二是引入了立方体差异扩展(c-DE)技术,基于三维整数小波变换将水印比特嵌入到低频系数的邻域体素中,通过扩展立方体内的体素差异来创建嵌入空间,并在提取时采用多数投票机制提高可靠性。该嵌入过程失真低且支持无损移除,从而保持医学体积数据的完整性和诊断精度。Vol-Mark 首先进行完整性验证,再通过假设检验进行所有权验证,以增强在数据篡改或水印移除攻击下的可靠性。实验结果表明,Vol-Mark 在常规、几何和混合攻击下均表现出优越的鲁棒性,在多数攻击场景下准确率(ACC)保持在 0.90 以上,显著优于现有方法。

💡 推荐理由: 医学体积数据是远程医疗的关键资产,其安全共享面临篡改和盗版风险。Vol-Mark 提供了一种可逆零水印方案,既能验证完整性又能在不损伤诊断精度的前提下确权,对保护患者数据和医疗知识产权具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mengyuan Sun, Yu Li 0006, Yunjie Ge, Yuchen Liu, Bo Du, Qian Wang 0002

本文提出了一种名为InverTune的多模态对比学习后门防御方法。多模态对比学习(如CLIP)易受后门攻击,攻击者可通过在训练数据中注入触发模式,使模型在测试时对带有触发器的样本产生恶意预测。现有防御方法通常假设攻击者仅篡改单模态或依赖干净数据,难以应对实际攻击。InverTune通过后门-对抗相关性分析(Backdoor-Adversarial Correlation Analysis)来检测并抵御后门。具体而言,该方法利用后门触发器与对抗性扰动之间的统计相关性,设计了一种新的训练范式,使模型在对比学习过程中自动抑制后门特征。实验在多个多模态数据集(如Flickr30K、MSCOCO)上验证了有效性,与现有防御相比,InverTune在保持下游任务性能的同时显著降低了后门攻击成功率,且不需要任何干净参考样本。本文主要贡献包括:首次将后门与对抗相关性引入多模态防御,提出无需干净数据的训练框架,以及在多个攻击场景下的鲁棒性验证。

💡 推荐理由: 多模态对比学习(如CLIP)被广泛用于图像检索、视觉问答等关键任务,其后门安全隐患可能被攻击者利用。InverTune提供了一种无需干净数据、通用性强的防御思路,对保护多模态AI系统具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Bowen Sun, Chaozhuo Li, Yaodong Yang, Yiwei Wang, Chaowei Xiao

该论文针对大语言模型(LLM)面临的分解式越狱攻击提出了一种新型防御框架。分解式越狱攻击通过将恶意目标拆分为一系列看似无害的查询,使攻击者能够绕过安全防护,累积重构出被禁止的内容。在实际部署中,LLM面对连续、不可追溯的匿名请求流,其中混杂着隐蔽分布的对抗性查询,现有防御策略在无可靠用户元数据时无法跟踪全局历史上下文,且基于生成模型的实时监控计算开销过大。为此,作者提出TwinGate,一种状态ful双编码器防御框架。TwinGate采用非对称对比学习(ACL),将语义不同但意图匹配的恶意片段在共享潜在空间中聚类,同时利用并行的冻结编码器抑制良性主题重叠导致的误报。每个请求仅需一次轻量级前向传播,可在目标模型填充阶段并行执行,延迟开销可忽略。为评估方法并推动未来研究,作者构建了包含超过362万条指令、覆盖8600种恶意意图的综合数据集。在严格因果协议下的大规模语料评估中,TwinGate实现了高恶意意图召回率和极低的误报率,且对自适应攻击具有强鲁棒性。相较于有状态和无状态基线,该方法在吞吐量和延迟方面均显著优于同类方案。该研究适合LLM安全研究人员、AI红队成员以及致力于构建实用防御机制的工程师阅读。

💡 推荐理由: 分解式越狱攻击是当前LLM安全中的隐蔽威胁,TwinGate提出了一种高效的状态ful防御方案,在不依赖用户身份的前提下实现高精度检测,对实际部署场景具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Kecen Li, Chen Gong, Zinan Lin, Tianhao Wang, Xiaokui Xiao

该论文聚焦于差分隐私(DP)对比学习中的隐私-效用权衡问题。现有的DP对比学习方法因标准对比目标中样本间固有的强依赖性而遭受严重的效用退化:每个样本的梯度依赖于批次中的所有其他样本,这放大了DP噪声的影响。作者指出,有效的DP对比学习需要显式地减少这种内在的样本间依赖。为此,他们提出了DP-GCL,一个原则性的DP对比学习框架,通过限制组级贡献来结构化地限制梯度依赖。DP-GCL将每个批次划分为小的、不相交的组,并将可用的负样本限制在组内,从而局部化梯度影响并降低敏感度。为了弥补由此造成的负样本多样性损失,进一步引入了组内增强,在不增加隐私成本的情况下生成额外的负视图。在八个数据集上的大量实验表明,在实际隐私预算下,DP-GCL在单模态和多模态对比学习中均持续提升了现有技术水平:与现有DP对比方法相比,图像分类准确率提升5.6%,图像-文本检索准确率提升20.1%。该工作为部署或共享在敏感用户数据上训练的嵌入模型提供了更实用的隐私保护方案。

💡 推荐理由: 该研究解决了DP对比学习中严重的效用退化问题,为安全工程师在保护用户隐私的同时保持模型可用性提供了新思路,尤其适用于需要发布或共享嵌入向量的场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)