#covert-control 主题 - Cyber Security Daily Radar

👥 作者: Zedian Shao, Charles Fleming, Teodora Baluta

大型语言模型（LLM）通常使用未经过滤的文本数据集进行微调，而对手可以污染这些数据集。现有的数据投毒攻击主要依赖于固定的触发短语，这些短语可以被异常检测、干净数据正则化或在线监控等防御手段中和。本文提出了一种新的数据投毒方法，通过共享知识（如事实或概念）与攻击者选择的短语之间的语义关联，使LLM学习一种可靠且隐蔽的信息隐藏方案。这种隐藏方案可以编码和解码任意恶意指令，从而揭示了一种新的、微妙的投毒诱导漏洞：隐蔽控制攻击。作者精确刻画了隐蔽控制攻击的特征，并在5个LLM、3种后门防御和4种提示注入防御上进行了评估。在较小的污染比例下，相比干净的微调模型，隐蔽控制攻击在平均攻击成功率上比基于启发式的提示注入攻击相对提高了约40%。它们还能规避基于检测和微调的防御，在后门防御后保持高达93%的攻击成功率，在提示注入防御后保持高达98%的攻击成功率。这项研究展示了LLM微调过程中一种新型的、难以防御的威胁，对LLM的安全部署提出了严峻挑战。

💡 推荐理由: 该攻击通过语义关联隐藏指令，能绕过现有检测和防御机制，对LLM安全构成新威胁，安全从业者需关注此类隐蔽后门攻击的演变。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#covert-control

Cordyceps: Covert Control Attacks on LLMs via Data Poisoning