#adversarial-feed 主题 - Cyber Security Daily Radar

👥 作者: Rana Muhammad Usman

该论文研究了LLM智能体在接收外部排序信息流（如社交媒体动态、搜索结果、检索上下文和邮件队列）后的决策行为。传统安全评估通常只测试模型本身或用户提示，而忽视了上游排序器（即决定智能体在行动前阅读哪些内容的排序层）的影响。作者设计了一个受控的实验协议，固定模型、角色、主题和最终决策提示，仅改变智能体在十轮“滚动”阶段所接触的帖子组成和顺序，从而隔离出信息流编排对下游决策的因果效应。在来自三个独立实验室的四个现代开源指令LLM上进行了2,785次决策实验，识别出三种响应模式：对抗性投降（智能体被偏向性信息流引导至与默认立场相悖的决策）、默认饱和（智能体坚守默认立场）以及默认方向不对称（单边信息流可以扭转智能体原本不确定的决策，最明显的情况从5%变为100%，Fisher精确检验p值低至3×10^-10，但无法动摇其已偏好或坚定持有的立场）。该效应呈现剂量-反应曲线，并且通过替换生成器（排除写作风格伪影）后依然存在，在包括移除部署审批门或放松访问控制等安全相关决策中普遍适用。两种简单的信息流级防御（如增加中立帖、前置清晰默认值）可以部分缓解，前沿模型仍保留其默认。作者将排序器定性为一种实用的、受默认值约束的LLM智能体控制面，并主张智能体评估必须审计信息流层，而不仅仅是最终提示。

💡 推荐理由: 揭示了LLM智能体的输入端（如社交Feed、搜索结果排序）可被利用来间接操控其安全决策，传统只评估模型或提示的测试存在盲区，安全从业者需关注信息流层的审计与防御。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#adversarial-feed

Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults