#multilingual

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Rishabh Makwana, Mamta, Deeksha Varshney, Oana Cocarascu

该论文提出了 MLingualFC,一个多语言多模态基准测试基准,旨在评估视觉语言模型(VLM)在跨语言场景下通过结构化流程图进行越狱攻击的脆弱性。尽管已有研究表明流程图等结构化视觉提示可以有效地越狱 VLM,但现有研究大多局限于英语环境。为了填补这一空白,该基准将有害指令编码为五种语言(印地语、旁遮普语、西班牙语、罗马尼亚语和德语)的流程图图像,并评估了多个最先进的多语言 VLM(包括 Qwen2.5-VL、Gemma-4 和 Pangea)在黑盒威胁模型下的表现。实验结果表明,存在显著的多语言安全差距:对于拉丁字母语言,基于流程图的攻击成功率达到较高水平,说明有害内容的视觉编码能够有效绕过跨语言的安全对齐;而对于非拉丁字母语言(如旁遮普语),攻击成功率明显更低,这暗示可能是视觉文本识别能力的局限而非更强的安全对齐。这些发现揭示了当前 VLM 安全机制无法跨语言和模态泛化的问题。论文资源已公开。

💡 推荐理由: 该研究揭示了多语言 VLM 在跨语言越狱攻击下的安全脆弱性,对于部署多语言 AI 系统的安全团队具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Michael S. Lee, Yash Maurya, Drew Rein, Bert Herring, Jonathan Nguyen, Kyungho Song, Udari Madhushani Sehwag, Jiyeon Cho, Kaustubh Deshpande, Yeongkyun Jang, Jiyeon Joo, Minn Seok Choi, Evi Fuelle, Christina Q Knight, Joseph Brandifino, Max Fenkell

本文介绍了一个名为 ROK-FORTRESS 的双语、文化对抗性国家安全与公共安全(NSPS)基准测试集,以英语-韩语语言对和美韩地缘政治轴为例,研究了语言与地缘政治背景对大型语言模型(LLM)安全行为的影响。作者提出了一种“翻译创作矩阵”方法,将对抗性意图在语言(英语 vs. 韩语)和地缘政治实体(美国 vs. 韩国)两个维度上进行组合控制,从而分离语言和地缘政治背景的影响。每个对抗性提示都配有一个对应的良性提示,以量化过度拒绝行为。模型响应通过校准的 LLM-as-a-judge 面板和专家构建的二元评分标准进行评分。实验覆盖了前沿模型和针对韩语优化的模型,发现韩语变体普遍存在安全抑制效应,且模型之间差异显著。许多模型中,韩语地缘政治背景缓解了韩语语言驱动的抑制效应,没有模型表现出相反方向的显著放大。这表明,至少在英语-韩语案例中,安全行为受到语言作为风险信号和上下文交互的影响,而这些是纯翻译基准无法捕捉的。该翻译创作矩阵方法论设计为可推广到其他语言-文化对。

💡 推荐理由: 该研究揭示了多语言环境下 LLM 安全评估的深层问题,即翻译基准可能掩盖语言与地缘文化交互带来的风险差异。提出的方法论有助于构建更符合实际部署场景的安全检测手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)