#representation-learning

共收录 3 条相关安全情报。

← 返回所有主题
👥 作者: Jiahe Guo, Xiangran Guo, Jiaxuan Chen, Weixiang Zhao, Yanyan Zhao, Yutai Hou, Qianchao Wang, Dandan Tu, Bing Qin

多模态大语言模型(MLLM)在文本模态中学习到的安全能力往往无法泛化到语义等价的非文本输入(如图像、视频),导致持续的多模态安全差距。本文从表示几何的角度研究这一现象,通过分析文本对齐的拒绝方向(refusal direction)和模态引起的漂移方向(drift direction),发现多模态输入会压缩沿拒绝方向的可分离性,使得该方向不再可靠地识别和拒绝有害输入,作者将此失效模式命名为“安全几何崩溃”(Safety Geometry Collapse)。为了量化该崩溃,论文提出了条件拒绝可分离性(conditional refusal separability)指标,并证明模态漂移越强,拒绝可分离性越弱,攻击成功率越高。通过固定强度的激活干预实验,作者验证了模态漂移的因果作用:沿估计的漂移方向反向干预可以恢复拒绝可分离性并提升多模态安全性。有趣的是,在漂移校正后,模型展现出自我纠正(self-rectification)现象,即在前向传播过程中自动恢复识别和拒绝有害多模态输入的能力,该效应还提供了模型对输入危害程度的内部信号。基于这一信号,作者提出ReGap(Rectify Gap),一种无需训练的推理时自适应漂移校正方法。在多个多模态安全基准和实用基准上的实验表明,ReGap能够显著提升MLLM的安全性,且不损害通用能力。该研究揭示了表示级别的模态对齐对于实时安全改进和构建更安全可靠MLLM的关键作用。

💡 推荐理由: 首次从表示几何角度揭示多模态安全差距的根本原因,并提出无需重训练的推理时防御方法,对当前多模态大模型的安全部署具有直接参考价值。

🎯 建议动作: 研究跟进:建议安全研究团队复现论文核心实验,评估ReGap在自有场景下的有效性,并探索其与现有安全对齐技术的结合

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Youngmok Ha, Viktor Schlegel, Yidan Sun, Anil Anthony Bharath

局部差分隐私(LDP)作为分布式数据收集的基元,其严格的噪声注入要求常导致数据效用严重下降。传统LDP机制是任务无关的,在所有维度上均匀施加噪声,忽略了不同维度对下游任务的相对重要性。本文提出一种新颖方法,在数据表示的任务相关子空间中减轻噪声。该方法通过下游公共模型的雅可比矩阵识别任务关键子空间,沿这些维度选择性地衰减噪声,并将标准LDP的各向同性噪声重塑为各向异性分布。该方法在保持每维度隐私预算均匀的同时,跨维度异质地调制噪声影响,从而显著提升数据效用。此外,该方法可推广到线性和非线性模型,并能无缝集成现有机制。在CIFAR-10-C(最高严重度等级5的亮度损坏)上的大量实验表明,在ε=7.5时,集成该方法使PrivUnit2和PrivUnitG的效用提升约20%。源代码已公开。

💡 推荐理由: 该方法在不牺牲隐私预算的前提下,显著提升了LDP下的数据效用,有助于平衡隐私保护与数据可用性,对分布式数据收集、联邦学习等场景具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Muhammad Usman Butt, Andreas Hotho, Daniel Schlör

该论文针对网络入侵检测系统(NIDS)中依赖人工特征工程的问题,系统评估了表格表示学习技术在NetFlow数据上的有效性。传统的NIDS需要专家手动提取特征,这与现代机器学习模型自动学习表示的理念相悖。论文选择了多种先进的表格表示学习方法(如TabICL)与传统的自编码器以及端到端Transformer基线进行对比,在CIDDS等基准NetFlow数据集上进行了全面的超参数搜索和评估。实验涵盖监督分类和无监督异常检测两类下游任务。结果表明,不同数据集上最佳方法差异显著:监督分类中,TabICL在CIDDS上表现最优,而自编码器在平均排名上与Transformer模型持平;无监督方法整体弱于监督方法,且最优组合因数据集而异。跨数据集迁移实验显示,通过选择合适的表示学习方法和分类器,学习到的特征可以跨网络环境泛化,但迁移效果强烈依赖于源-目标数据集的分布相似性。该研究为NIDS中自动化特征学习提供了重要的经验性指导。

💡 推荐理由: 该研究为NIDS领域提供自动化特征学习的系统评估,有助于安全团队减少人工特征工程依赖,提升检测模型对新型攻击的泛化能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)