#task-level-vulnerability 主题 - Cyber Security Daily Radar

👥 作者: Lan Zhang 0002, Xinben Gao, Liuyi Yao, Jinke Song, Yaliang Li

本文针对大型语言模型（LLMs）中任务级漏洞的自动越狱攻击与防御基准测试问题展开研究。任务级漏洞是指LLM在执行特定任务（如代码生成、推理等）时，由于上下文或角色设定中的安全边界模糊，导致模型可能被诱导产生有害输出。论文提出了一种自动化的越狱攻击框架，能够系统地发现不同任务中的漏洞，并构建了一个包含多类任务和攻击向量的基准测试集。同时，论文设计了相应的防御策略并评估其有效性。实验证明，该方法能有效暴露LLM在任务层面的安全隐患，为后续安全加固提供参考。该工作对于推动LLM安全评估标准化具有重要价值。

💡 推荐理由: LLM任务级漏洞是当前安全性研究的盲点，该工作首次提出系统性自动化基准测试，为安全从业者评估和防御提供了工具与思路。