#paladin 主题 - Cyber Security Daily Radar

👥 作者: Yan Pang, Wenlong Meng, Xiaojing Liao, Tianhao Wang

随着大型语言模型（LLM）的快速发展，利用其生成钓鱼内容的恶意行为日益普遍。攻击者可以利用LLM生成语法正确、主题定制的钓鱼邮件，这使得传统基于语义特征的检测方法难以有效识别。现有LLM检测方法存在计算成本高、依赖底层模型性能等问题，不适用于大规模部署。为此，本文提出了一种名为Paladin的新型防御范式。Paladin通过在原始LLM中嵌入触发-标签（trigger-tag）关联，采用多种插入策略，将普通LLM改造为“仪表化”模型。当仪表化模型生成与钓鱼相关的内容时，会自动包含可检测的隐式或显式标签，从而使得安全系统能够轻松识别钓鱼邮件。研究考虑了四种不同的场景（基于隐式/显式触发器和标签的组合），并从隐蔽性、有效性和鲁棒性三个关键维度评估了该方法。实验结果表明，Paladin在所有场景下的检测准确率均超过90%，优于现有基线方法。该方法为防御LLM生成的钓鱼内容提供了一种新的思路，具有低开销、高准确率的潜力。

💡 推荐理由: LLM生成的钓鱼邮件难以用传统方法检测，Paladin提供了一种新颖的主动防御范式，通过在生成源头嵌入可检测标记，有望降低安全运营的检测成本，提升对AI驱动钓鱼攻击的响应能力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#paladin

Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm.