#trust-asymmetry 主题 - Cyber Security Daily Radar

👥 作者: Mohammed Sameer Syed, Rozhin Yasaei

本文研究语言模型在扮演代理角色时，不同信息通道（用户消息、工具元数据、工具输出）对恶意指令的响应差异。作者提出安全不对称分数（Safety Asymmetry Score, SAS），通过保持恶意文本内容相同、仅改变传递上下文，衡量模型对来自不同通道的对抗性内容的敏感性变化。实验涵盖6个生产级LLM和三种攻击家族（如提示注入、越狱等），发现一致的不对称性：代理原生模型在工具描述中接收对抗内容时比用户消息中更脆弱，而通用模型则相反；当相同内容通过工具输出传递时，这种不对称性进一步反转，表明模型隐式地将工具元数据视为可信指令，将工具输出视为普通数据。对Llama 3.3 70B的机械分析显示，安全相关表征在中间到深层网络中因果存在但非线性编码，解释了线性探针无法检测的原因。这些发现揭示了当前使用工具的LLM在处理对抗内容时存在系统性的、通道相关的盲点。

💡 推荐理由: 该研究首次系统量化了LLM在不同信息通道上对同一种恶意载荷的不对称响应，揭示了工具元数据被视为可信指令的安全盲点，对构建安全的AI代理系统具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#trust-asymmetry

Same Payload, Different Channel: Measuring Trust Asymmetry in Tool-Using Language Models