#deep-learning-security

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Sihui Dai, Saeed Mahloujifar, Prateek Mittal

深度神经网络对对抗性扰动输入存在脆弱性,对抗训练是一种常用的防御手段,其效果受到模型架构的影响。以往研究探讨了改变模型宽度和深度对鲁棒性的影响,但尚未系统研究使用可学习参数化激活函数(PAF)的影响。本文旨在探究PAF是否能在对抗训练中提升鲁棒性。作者首先提出一个问题:改变激活函数形状能否提高鲁棒性?为此,他们选取了一组可调参数的PAF,能够独立控制负输入、接近零输入和正输入区域的行为。使用这些PAF,在固定形状参数下进行对抗训练,发现各个区域都会影响鲁棒性,但仅在某些区域(接近零和正输入)的调整能优于ReLU。随后,他们将可学习PAF与对抗训练结合,分析鲁棒性能。结果表明,激活函数的选择显著影响训练模型的鲁棒性,只有特定PAF(如平滑PAF)能在ReLU基础上显著提升鲁棒性。总的来说,该工作凸显了激活函数在对抗训练模型中的重要性。

💡 推荐理由: 激活函数的选择常被忽视,本文首次系统证明可学习参数化激活函数能显著提升对抗鲁棒性,为设计更鲁棒的神经网络架构提供了新方向。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yinbo Yu, Xueyu Yin, Jing Fang, Chunwei Tian, Qi Zhu, Jiajia Liu, Daoqiang Zhang

深度神经网络(DNN)仍然容易受到后门攻击,现有后门检测方法通常需要干净数据、代理数据、梯度或迭代触发器重建,导致计算成本高且在实际模型审计场景中鲁棒性有限。本文提出HTell,一种快速、轻量级且无需数据的后门检测方法,基于头部随机探针技术。HTell的核心洞察是:后门模型在随机潜在探针下,预测头部的目标类别上往往表现出异常高的响应集中度。该方法首先生成架构感知的随机潜在探针,直接馈入模型头部,然后通过分析类别级响应统计量来检测后门,无需访问真实/代理数据、模型梯度或参数优化。在包含超过6000个后门模型和700多个干净模型的大规模基准上进行评估,覆盖4个数据集、14种架构和21种后门攻击类型。HTell实现了99.03%的真阳性率和2.11%的假阳性率,每模型检测延迟仅为12.69毫秒,相比基于梯度的代表性检测器时间成本降低超过30,000倍。结果表明,头部随机探针为大规模无数据后门模型审计提供了准确、鲁棒且高效的解决方案。

💡 推荐理由: HTell实现了无需数据、快速且高精度的后门检测,大幅降低了模型审计的计算门槛,适合安全团队在本地或云端大规模部署前对第三方模型进行黑盒筛查。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)