#geopolitical-safety

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Michael S. Lee, Yash Maurya, Drew Rein, Bert Herring, Jonathan Nguyen, Kyungho Song, Udari Madhushani Sehwag, Jiyeon Cho, Kaustubh Deshpande, Yeongkyun Jang, Jiyeon Joo, Minn Seok Choi, Evi Fuelle, Christina Q Knight, Joseph Brandifino, Max Fenkell

本文介绍了一个名为 ROK-FORTRESS 的双语、文化对抗性国家安全与公共安全(NSPS)基准测试集,以英语-韩语语言对和美韩地缘政治轴为例,研究了语言与地缘政治背景对大型语言模型(LLM)安全行为的影响。作者提出了一种“翻译创作矩阵”方法,将对抗性意图在语言(英语 vs. 韩语)和地缘政治实体(美国 vs. 韩国)两个维度上进行组合控制,从而分离语言和地缘政治背景的影响。每个对抗性提示都配有一个对应的良性提示,以量化过度拒绝行为。模型响应通过校准的 LLM-as-a-judge 面板和专家构建的二元评分标准进行评分。实验覆盖了前沿模型和针对韩语优化的模型,发现韩语变体普遍存在安全抑制效应,且模型之间差异显著。许多模型中,韩语地缘政治背景缓解了韩语语言驱动的抑制效应,没有模型表现出相反方向的显著放大。这表明,至少在英语-韩语案例中,安全行为受到语言作为风险信号和上下文交互的影响,而这些是纯翻译基准无法捕捉的。该翻译创作矩阵方法论设计为可推广到其他语言-文化对。

💡 推荐理由: 该研究揭示了多语言环境下 LLM 安全评估的深层问题,即翻译基准可能掩盖语言与地缘文化交互带来的风险差异。提出的方法论有助于构建更符合实际部署场景的安全检测手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)