#finetuning-attack

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Zekun Sun, Zijian Liu, Shouling Ji, Chenhao Lin, Na Ruan

本文提出了一种名为 Pretender 的新型主动防御方法,旨在防御针对扩散模型的微调攻击。扩散模型在文本到图像生成等领域取得显著进展,但微调阶段易被恶意利用以产生有害或侵权内容。Pretender 通过主动干扰微调过程,在模型发布前嵌入保护机制,使攻击者无法有效微调模型至恶意目的。该方法属于主动防御范畴,无需依赖攻击检测或后处理过滤。由于仅依据论文标题,具体技术细节、实验设置和性能指标尚不清楚,需进一步阅读原文获取。

💡 推荐理由: 随着扩散模型在创意产业中的广泛应用,模型微调攻击可能导致版权侵权、有害内容生成等严重问题。Pretender 提供了一种主动防御思路,从源头阻止恶意微调,对保护模型知识产权和生成安全具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)