#lora

共收录 3 条相关安全情报。

← 返回所有主题
👥 作者: Beomjin Ahn, Jungmin Kwon, Chanyong Jung, Jaewook Chung

该论文提出了一种名为LoREnc的训练无关框架,用于保护基础模型(FM)和低秩适配器(LoRA adapter)免受知识产权泄露和模型恢复攻击。现有防御方法通常需要重新训练或访问原始数据集,实用性不足。LoREnc通过频谱截断与补偿技术,在不需要重新训练的情况下,抑制FM权重中的主导低秩分量,并在授权适配器中补偿缺失信息;同时采用正交重参数化,模糊受保护适配器的结构指纹。未经授权的用户使用受保护模型时会产生结构坍塌的输出,而授权用户可恢复精确性能。实验表明,LoREnc能够有效防御模型恢复攻击,且计算开销低于1%。该方法适用于边缘设备上的生成式AI场景,在不明显增加推理成本的前提下提供强保护。

💡 推荐理由: 针对FM和LoRA适配器的模型提取攻击日益严重,而现有防御需重训练或原始数据,LoREnc首次实现了训练无关的低开销保护方案,适合资源受限的端侧部署。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera, Stjepan Picek, Saraga Sakthidharan

随着开源大语言模型(LLM)的普及,通过公开分发低秩适应(LoRA)模块来定制模型能力已成为常见做法。然而,集成第三方 LoRA 模块会导致基础模型的安全对齐被灾难性遗忘,即模型失去了原有的安全护栏。传统方法通过安全数据微调来恢复对齐,但这会严重破坏适配器原本提供的专业领域知识。为解决这一零资源挑战,本文提出了 Neural Weight Translation (NeWTral) 框架。NeWTral 是一个预训练的非线性翻译模块,它直接在不安全的、特定领域的适配器参数空间与安全对齐流形之间建立映射,同时严格保持适配器的核心专业知识。该框架采用自适应混合专家(MoE)路由策略,融合高保真翻译专家和激进对齐专家,在参数空间中完成翻译。实验在四个架构家族(Llama、Mistral、Qwen、Gemma)上、规模达 72B 参数、涵盖八个科学和专业领域进行。结果表明,MoE 变体将平均攻击成功率(ASR)从 70%(不安全专家)大幅降至 13%,同时保持了 90% 的平均知识保真度。NeWTral 模块设计为可独立下载的资产,使从业者无需访问原始训练数据或进行硬件密集的重新训练,即可即时恢复安全对齐。

💡 推荐理由: 该研究为使用第三方 LoRA 模块的 LLM 部署提供了即插即用的安全恢复方案,解决了安全与领域知识之间的权衡问题,对构建可信 Agent 系统至关重要。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Linzhi Chen, Yang Sun, Hongru Wei, Yuqi Chen

本文针对低秩适配(LoRA)模型在开源社区(如Hugging Face)中广泛使用所带来的安全挑战展开研究。LoRA作为一种高效的大语言模型微调方法,其适配器文件可被轻易分享和传播,但这也为恶意攻击者提供了植入后门的机会。现有后门攻击方法在LoRA场景下面临三个主要问题:依赖原始训练数据(通常不可获取)、未考虑LoRA特有的结构属性、以及高虚假触发率(False Trigger Rate, FTR)导致隐蔽性差。为此,作者提出了一种因果引导去毒后门攻击框架(CBA),该框架无需访问原始训练数据即可实施攻击。CBA的核心创新包括两点:一是基于覆盖引导的数据生成流水线,通过行为探索合成与任务对齐的输入;二是因果引导的去毒策略,通过保留任务关键神经元来合并中毒适配器和干净适配器。与以往方法不同,CBA允许攻击者在后训练阶段通过因果影响权重分配来控制攻击强度,无需重复训练。在六个LoRA模型上的实验表明,CBA在实现高攻击成功率的同时,将FTR相比基线方法降低了50-70%。此外,该方法对现有先进的后门防御方法表现出增强的抵抗力,凸显了其隐蔽性和鲁棒性。本文的研究揭示了开源LoRA模型生态中存在的严重安全隐患,提醒社区关注此类新型后门攻击的威胁。

💡 推荐理由: 本研究揭示了开源LoRA模型共享生态中一种高隐蔽性、无需原始训练数据的后门攻击方法,对依赖LoRA微调的AI应用构成潜在威胁,值得安全从业者警惕并提前部署检测与防御机制。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)