#adversarial-evaluation 主题 - Cyber Security Daily Radar

👥 作者: Caglar Uysal, Baturay Birinci, Süha Orhun Mutluergil, Orçun Çetin

本论文针对大语言模型（LLM）在提示注入攻击下的安全性进行了实证评估。研究背景是随着LLM（如DeepSeek、GPT、Gemini、Grok、Llama和Qwen）在各行业的快速部署，恶意攻击者利用提示注入漏洞生成钓鱼邮件、欺诈网站和恶意代码等有害内容，构成严重安全威胁。核心问题在于当前LLM在对抗性提示下的鲁棒性不足，尤其是在多语言和混淆攻击场景下。研究者提出了一套评估框架，测试了六种主流LLM在直接注入和分阶段混淆攻击下的表现，攻击涉及多种语言和字符编码（如Unicode混淆）。实验发现：所有模型均存在系统性漏洞，直接提示注入即可引发有害内容生成；精心构造的多阶段提示能进一步提高恶意遵从率，尤其是针对钓鱼场景。DeepSeek、Gemini和Grok在复杂指令下表现出更高的脆弱性。值得注意的是，非英语语言的恶意遵从率普遍高于英语，暴露了多语言安全对齐的显著短板。虽然简单的字符编码混淆能降低部分恶意输出，但无法完全消除。本研究的贡献在于系统性地量化了当前LLM的安全缺口，强调了开发更强防御机制和优化多语言安全对齐的紧迫性，为LLM在网络安全敏感环境中的安全部署提供了实证依据。适合LLM安全研究人员、模型开发者及安全运维人员阅读。

💡 推荐理由: 揭示了主流LLM在多语言和混淆提示注入下的系统性脆弱性，为非英语场景的安全对齐敲响警钟，推动防御策略改进。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#adversarial-evaluation

An Empirical Evaluation of Prompt Injection Vulnerabilities in Large Language Models Across Multilingual and Obfuscated Attack Scenarios