#lora 主题 - Cyber Security Daily Radar

👥 作者: Beomjin Ahn, Jungmin Kwon, Chanyong Jung, Jaewook Chung

该论文提出了一种名为LoREnc的训练无关框架，用于保护基础模型（FM）和低秩适配器（LoRA adapter）免受知识产权泄露和模型恢复攻击。现有防御方法通常需要重新训练或访问原始数据集，实用性不足。LoREnc通过频谱截断与补偿技术，在不需要重新训练的情况下，抑制FM权重中的主导低秩分量，并在授权适配器中补偿缺失信息；同时采用正交重参数化，模糊受保护适配器的结构指纹。未经授权的用户使用受保护模型时会产生结构坍塌的输出，而授权用户可恢复精确性能。实验表明，LoREnc能够有效防御模型恢复攻击，且计算开销低于1%。该方法适用于边缘设备上的生成式AI场景，在不明显增加推理成本的前提下提供强保护。

💡 推荐理由: 针对FM和LoRA适配器的模型提取攻击日益严重，而现有防御需重训练或原始数据，LoREnc首次实现了训练无关的低开销保护方案，适合资源受限的端侧部署。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera, Stjepan Picek, Saraga Sakthidharan

随着开源大语言模型（LLM）的普及，通过公开分发低秩适应（LoRA）模块来定制模型能力已成为常见做法。然而，集成第三方 LoRA 模块会导致基础模型的安全对齐被灾难性遗忘，即模型失去了原有的安全护栏。传统方法通过安全数据微调来恢复对齐，但这会严重破坏适配器原本提供的专业领域知识。为解决这一零资源挑战，本文提出了 Neural Weight Translation (NeWTral) 框架。NeWTral 是一个预训练的非线性翻译模块，它直接在不安全的、特定领域的适配器参数空间与安全对齐流形之间建立映射，同时严格保持适配器的核心专业知识。该框架采用自适应混合专家（MoE）路由策略，融合高保真翻译专家和激进对齐专家，在参数空间中完成翻译。实验在四个架构家族（Llama、Mistral、Qwen、Gemma）上、规模达 72B 参数、涵盖八个科学和专业领域进行。结果表明，MoE 变体将平均攻击成功率（ASR）从 70%（不安全专家）大幅降至 13%，同时保持了 90% 的平均知识保真度。NeWTral 模块设计为可独立下载的资产，使从业者无需访问原始训练数据或进行硬件密集的重新训练，即可即时恢复安全对齐。

💡 推荐理由: 该研究为使用第三方 LoRA 模块的 LLM 部署提供了即插即用的安全恢复方案，解决了安全与领域知识之间的权衡问题，对构建可信 Agent 系统至关重要。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Linzhi Chen, Yang Sun, Hongru Wei, Yuqi Chen

本文针对低秩适配（LoRA）模型在开源社区（如Hugging Face）中广泛使用所带来的安全挑战展开研究。LoRA作为一种高效的大语言模型微调方法，其适配器文件可被轻易分享和传播，但这也为恶意攻击者提供了植入后门的机会。现有后门攻击方法在LoRA场景下面临三个主要问题：依赖原始训练数据（通常不可获取）、未考虑LoRA特有的结构属性、以及高虚假触发率（False Trigger Rate, FTR）导致隐蔽性差。为此，作者提出了一种因果引导去毒后门攻击框架（CBA），该框架无需访问原始训练数据即可实施攻击。CBA的核心创新包括两点：一是基于覆盖引导的数据生成流水线，通过行为探索合成与任务对齐的输入；二是因果引导的去毒策略，通过保留任务关键神经元来合并中毒适配器和干净适配器。与以往方法不同，CBA允许攻击者在后训练阶段通过因果影响权重分配来控制攻击强度，无需重复训练。在六个LoRA模型上的实验表明，CBA在实现高攻击成功率的同时，将FTR相比基线方法降低了50-70%。此外，该方法对现有先进的后门防御方法表现出增强的抵抗力，凸显了其隐蔽性和鲁棒性。本文的研究揭示了开源LoRA模型生态中存在的严重安全隐患，提醒社区关注此类新型后门攻击的威胁。

💡 推荐理由: 本研究揭示了开源LoRA模型共享生态中一种高隐蔽性、无需原始训练数据的后门攻击方法，对依赖LoRA微调的AI应用构成潜在威胁，值得安全从业者警惕并提前部署检测与防御机制。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#lora

LoREnc: Low-Rank Encryption for Securing Foundation Models and LoRA Adapters

You Snooze, You Lose: Automatic Safety Alignment Restoration through Neural Weight Translation

Causal-Guided Detoxify Backdoor Attack of Open-Weight LoRA Models.