#geopolitical-safety 主题 - Cyber Security Daily Radar

👥 作者: Michael S. Lee, Yash Maurya, Drew Rein, Bert Herring, Jonathan Nguyen, Kyungho Song, Udari Madhushani Sehwag, Jiyeon Cho, Kaustubh Deshpande, Yeongkyun Jang, Jiyeon Joo, Minn Seok Choi, Evi Fuelle, Christina Q Knight, Joseph Brandifino, Max Fenkell

本文介绍了一个名为 ROK-FORTRESS 的双语、文化对抗性国家安全与公共安全（NSPS）基准测试集，以英语-韩语语言对和美韩地缘政治轴为例，研究了语言与地缘政治背景对大型语言模型（LLM）安全行为的影响。作者提出了一种“翻译创作矩阵”方法，将对抗性意图在语言（英语 vs. 韩语）和地缘政治实体（美国 vs. 韩国）两个维度上进行组合控制，从而分离语言和地缘政治背景的影响。每个对抗性提示都配有一个对应的良性提示，以量化过度拒绝行为。模型响应通过校准的 LLM-as-a-judge 面板和专家构建的二元评分标准进行评分。实验覆盖了前沿模型和针对韩语优化的模型，发现韩语变体普遍存在安全抑制效应，且模型之间差异显著。许多模型中，韩语地缘政治背景缓解了韩语语言驱动的抑制效应，没有模型表现出相反方向的显著放大。这表明，至少在英语-韩语案例中，安全行为受到语言作为风险信号和上下文交互的影响，而这些是纯翻译基准无法捕捉的。该翻译创作矩阵方法论设计为可推广到其他语言-文化对。

💡 推荐理由: 该研究揭示了多语言环境下 LLM 安全评估的深层问题，即翻译基准可能掩盖语言与地缘文化交互带来的风险差异。提出的方法论有助于构建更符合实际部署场景的安全检测手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#geopolitical-safety

ROK-FORTRESS: Measuring the Effect of Geopolitical Transcreation for National Security and Public Safety