推荐 5.5
Conf: 50%
该论文研究了LLM智能体在接收外部排序信息流(如社交媒体动态、搜索结果、检索上下文和邮件队列)后的决策行为。传统安全评估通常只测试模型本身或用户提示,而忽视了上游排序器(即决定智能体在行动前阅读哪些内容的排序层)的影响。作者设计了一个受控的实验协议,固定模型、角色、主题和最终决策提示,仅改变智能体在十轮“滚动”阶段所接触的帖子组成和顺序,从而隔离出信息流编排对下游决策的因果效应。在来自三个独立实验室的四个现代开源指令LLM上进行了2,785次决策实验,识别出三种响应模式:对抗性投降(智能体被偏向性信息流引导至与默认立场相悖的决策)、默认饱和(智能体坚守默认立场)以及默认方向不对称(单边信息流可以扭转智能体原本不确定的决策,最明显的情况从5%变为100%,Fisher精确检验p值低至3×10^-10,但无法动摇其已偏好或坚定持有的立场)。该效应呈现剂量-反应曲线,并且通过替换生成器(排除写作风格伪影)后依然存在,在包括移除部署审批门或放松访问控制等安全相关决策中普遍适用。两种简单的信息流级防御(如增加中立帖、前置清晰默认值)可以部分缓解,前沿模型仍保留其默认。作者将排序器定性为一种实用的、受默认值约束的LLM智能体控制面,并主张智能体评估必须审计信息流层,而不仅仅是最终提示。
💡 推荐理由: 揭示了LLM智能体的输入端(如社交Feed、搜索结果排序)可被利用来间接操控其安全决策,传统只评估模型或提示的测试存在盲区,安全从业者需关注信息流层的审计与防御。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)