#open-weight 主题 - Cyber Security Daily Radar

👥 作者: Charbel El Feghali, Arkil Patel, Nicholas Meade, Spandana Gella, Verna Dankers, Siva Reddy

当前开放权重的大型语言模型（LLM）在推动科学进步的同时，也带来了对敏感能力进行访问控制的挑战。现有做法要么在发布前抑制危险能力，要么通过封闭服务（如API权限、输入输出监控）进行访问管理。前者易受越狱攻击，且为了少数风险而对所有用户牺牲能力；后者与开放权重理念根本冲突。本文提出分层语言模型（Tiered Language Models, TLMs），通过单一模型权重集支持多个能力层级。TLM的默认公开配置行为与传统LLM无异，但一个紧凑的秘密密钥可对一小部分参数子集施加排列，从而在同组权重上诱导出替代计算图，解锁额外能力。训练流程包括从头联合预训练两种配置，然后在私有数据上对密钥配置进行微调，同时施加正则化以保持公开模型的行为不受影响。实验使用1.8亿和6.5亿参数的TLM，证明密钥配置能够习得新语言、获得指令遵循能力、记忆私密事实知识，而公开配置完全不具有这些能力。此外，该方法可自然地扩展到多层分级。由于授权作用于模型权重结构而非输入空间，该机制能够抵抗基于微调的提取攻击和部分密钥泄露。总体而言，TLM向调和开放权重发布与选择性能力控制迈出了一步。

💡 推荐理由: 该研究为开放权重LLM提供了一种细粒度权限控制方案，在保持模型开放性的同时，防止敏感能力（如危险知识、恶意指令）被高权限用户以外的人员获取，对AI安全治理和对抗性防御有重要启示。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kevin Kuo, Chhavi Yadav, Virginia Smith

该论文研究了当前针对开源权重大语言模型（LLMs）的安全微调防御措施，这些措施旨在防止模型被用于有害目的。然而，预训练的LLMs本身已编码了大量有害知识，这意味着攻击者可能无需额外微调，仅通过提示注入或越狱方式就能诱导模型产生有害输出。论文发现两种简单且低成本的攻击方法——abliteration（通过特定提示模板消除模型的安全对齐）和 prefilling（通过预先填充用户输入来绕过安全过滤）——能够有效绕过现有的安全防御。在BeaverTails、HarmBench和AdvBench三个有害行为评估基准上，这些攻击将针对安全微调模型（如Llama-2-7B）的攻击成功率从低于10%提升至16%-96%不等。为缓解这一漏洞，作者提出了abliteration-resistant tuning (ART)，通过在训练中引入基于abliteration的目标来增强模型抵御上述攻击的能力。实验表明，ART可以将abliteration、prefilling及其组合攻击的成功率降低10%-20%。该工作揭示了开源权重模型的安全评估面比之前认为的更广，防御评估不应仅关注微调攻击，还应包含更多样的攻击策略。

💡 推荐理由: 该研究提醒安全从业者，当前对LLM的安全防护可能被简单、低成本的越狱方法绕过，而无需复杂优化。这要求蓝队和模型部署方在安全评估中纳入更全面的攻击视角，并考虑在模型训练层面加固。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#open-weight

Toward Open Weight Models Without Risks: Separating Public and Private Capabilities in LLMs

Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks