推荐 5.5
Conf: 50%
本文研究语言模型在扮演代理角色时,不同信息通道(用户消息、工具元数据、工具输出)对恶意指令的响应差异。作者提出安全不对称分数(Safety Asymmetry Score, SAS),通过保持恶意文本内容相同、仅改变传递上下文,衡量模型对来自不同通道的对抗性内容的敏感性变化。实验涵盖6个生产级LLM和三种攻击家族(如提示注入、越狱等),发现一致的不对称性:代理原生模型在工具描述中接收对抗内容时比用户消息中更脆弱,而通用模型则相反;当相同内容通过工具输出传递时,这种不对称性进一步反转,表明模型隐式地将工具元数据视为可信指令,将工具输出视为普通数据。对Llama 3.3 70B的机械分析显示,安全相关表征在中间到深层网络中因果存在但非线性编码,解释了线性探针无法检测的原因。这些发现揭示了当前使用工具的LLM在处理对抗内容时存在系统性的、通道相关的盲点。
💡 推荐理由: 该研究首次系统量化了LLM在不同信息通道上对同一种恶意载荷的不对称响应,揭示了工具元数据被视为可信指令的安全盲点,对构建安全的AI代理系统具有重要指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)