#adversarial-evaluation

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Caglar Uysal, Baturay Birinci, Süha Orhun Mutluergil, Orçun Çetin

本论文针对大语言模型(LLM)在提示注入攻击下的安全性进行了实证评估。研究背景是随着LLM(如DeepSeek、GPT、Gemini、Grok、Llama和Qwen)在各行业的快速部署,恶意攻击者利用提示注入漏洞生成钓鱼邮件、欺诈网站和恶意代码等有害内容,构成严重安全威胁。核心问题在于当前LLM在对抗性提示下的鲁棒性不足,尤其是在多语言和混淆攻击场景下。研究者提出了一套评估框架,测试了六种主流LLM在直接注入和分阶段混淆攻击下的表现,攻击涉及多种语言和字符编码(如Unicode混淆)。实验发现:所有模型均存在系统性漏洞,直接提示注入即可引发有害内容生成;精心构造的多阶段提示能进一步提高恶意遵从率,尤其是针对钓鱼场景。DeepSeek、Gemini和Grok在复杂指令下表现出更高的脆弱性。值得注意的是,非英语语言的恶意遵从率普遍高于英语,暴露了多语言安全对齐的显著短板。虽然简单的字符编码混淆能降低部分恶意输出,但无法完全消除。本研究的贡献在于系统性地量化了当前LLM的安全缺口,强调了开发更强防御机制和优化多语言安全对齐的紧迫性,为LLM在网络安全敏感环境中的安全部署提供了实证依据。适合LLM安全研究人员、模型开发者及安全运维人员阅读。

💡 推荐理由: 揭示了主流LLM在多语言和混淆提示注入下的系统性脆弱性,为非英语场景的安全对齐敲响警钟,推动防御策略改进。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)