#multilingual 主题 - Cyber Security Daily Radar

👥 作者: Caglar Uysal, Baturay Birinci, Süha Orhun Mutluergil, Orçun Çetin

本论文对六种主流大语言模型（DeepSeek、GPT、Gemini、Grok、Llama 和 Qwen）在提示注入攻击下的脆弱性进行了实证评估。研究设计了包括直接提示注入和多阶段混淆攻击在内的多样化对抗性提示场景，并跨越多种语言和字符编码（如Base64、十六进制等）。实验框架衡量了模型在遭受操纵时执行有害行为（如生成钓鱼邮件、欺骗性网站和恶意软件）的抵抗能力。结果显示，所有测试模型均存在系统性漏洞：直接提示注入往往能诱导模型生成钓鱼内容、网站和恶意代码，而精心构造的复杂提示（尤其是针对钓鱼场景）可获得更高的恶意合规率。DeepSeek、Gemini 和 Grok 在复杂指令下表现出特别高的敏感性。值得注意的是，非英语环境下的合规率普遍高于英语，暴露出多语言安全对齐的显著缺陷。简单的字符编码虽能减少恶意输出，但无法完全消除。这些发现凸显了 LLM 安全持续面临的挑战，并强调亟需更强的防御机制和更完善的安全对齐，以支持 LLM 在网络安全敏感场景中的道德与安全部署。该研究为理解跨语言和混淆攻击下的提示注入风险提供了系统性的实证数据，适合 AI 安全研究人员、大模型开发者和安全运营团队阅读。

💡 推荐理由: 该研究系统揭示了当前主流大模型在非英语和混淆攻击场景下更高的脆弱性，提醒安全社区关注多语言安全对齐的薄弱环节，为防御方制定针对性的提示注入检测与防御策略提供了实证依据。

🎯 建议动作: 研究跟进：建议安全团队关注模型在非英语场景下的输入过滤与输出审查，评估自身业务中模型对混淆攻击的抵抗力。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Rishabh Makwana, Mamta, Deeksha Varshney, Oana Cocarascu

该论文提出了 MLingualFC，一个多语言多模态基准测试基准，旨在评估视觉语言模型（VLM）在跨语言场景下通过结构化流程图进行越狱攻击的脆弱性。尽管已有研究表明流程图等结构化视觉提示可以有效地越狱 VLM，但现有研究大多局限于英语环境。为了填补这一空白，该基准将有害指令编码为五种语言（印地语、旁遮普语、西班牙语、罗马尼亚语和德语）的流程图图像，并评估了多个最先进的多语言 VLM（包括 Qwen2.5-VL、Gemma-4 和 Pangea）在黑盒威胁模型下的表现。实验结果表明，存在显著的多语言安全差距：对于拉丁字母语言，基于流程图的攻击成功率达到较高水平，说明有害内容的视觉编码能够有效绕过跨语言的安全对齐；而对于非拉丁字母语言（如旁遮普语），攻击成功率明显更低，这暗示可能是视觉文本识别能力的局限而非更强的安全对齐。这些发现揭示了当前 VLM 安全机制无法跨语言和模态泛化的问题。论文资源已公开。

💡 推荐理由: 该研究揭示了多语言 VLM 在跨语言越狱攻击下的安全脆弱性，对于部署多语言 AI 系统的安全团队具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Michael S. Lee, Yash Maurya, Drew Rein, Bert Herring, Jonathan Nguyen, Kyungho Song, Udari Madhushani Sehwag, Jiyeon Cho, Kaustubh Deshpande, Yeongkyun Jang, Jiyeon Joo, Minn Seok Choi, Evi Fuelle, Christina Q Knight, Joseph Brandifino, Max Fenkell

本文介绍了一个名为 ROK-FORTRESS 的双语、文化对抗性国家安全与公共安全（NSPS）基准测试集，以英语-韩语语言对和美韩地缘政治轴为例，研究了语言与地缘政治背景对大型语言模型（LLM）安全行为的影响。作者提出了一种“翻译创作矩阵”方法，将对抗性意图在语言（英语 vs. 韩语）和地缘政治实体（美国 vs. 韩国）两个维度上进行组合控制，从而分离语言和地缘政治背景的影响。每个对抗性提示都配有一个对应的良性提示，以量化过度拒绝行为。模型响应通过校准的 LLM-as-a-judge 面板和专家构建的二元评分标准进行评分。实验覆盖了前沿模型和针对韩语优化的模型，发现韩语变体普遍存在安全抑制效应，且模型之间差异显著。许多模型中，韩语地缘政治背景缓解了韩语语言驱动的抑制效应，没有模型表现出相反方向的显著放大。这表明，至少在英语-韩语案例中，安全行为受到语言作为风险信号和上下文交互的影响，而这些是纯翻译基准无法捕捉的。该翻译创作矩阵方法论设计为可推广到其他语言-文化对。

💡 推荐理由: 该研究揭示了多语言环境下 LLM 安全评估的深层问题，即翻译基准可能掩盖语言与地缘文化交互带来的风险差异。提出的方法论有助于构建更符合实际部署场景的安全检测手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#multilingual

An Empirical Evaluation of Prompt Injection Vulnerabilities in Large Language Models Across Multilingual and Obfuscated Attack Scenarios

MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models

ROK-FORTRESS: Measuring the Effect of Geopolitical Transcreation for National Security and Public Safety