#trojan 主题 - Cyber Security Daily Radar

👥 作者: Komail Dharsee, John Criswell

该论文题为《Jinn: Hijacking Safe Programs with Trojans》，由 Komail Dharsee 和 John Criswell 撰写。由于未提供完整摘要，此处基于标题概述：论文研究了一种通过木马（Trojan）劫持看似安全的程序的攻击方法。攻击者可能在程序编译或运行时注入恶意代码，从而在程序执行过程中获取控制权，而程序本身的认证或安全机制（如代码签名、形式化验证）可能无法检测到此类后门。作者提出了攻击模型并分析了其可行性，旨在引起安全社区对供应链安全和程序信任的重新审视。具体技术细节、实验评估及防御措施需阅读原文获取。

💡 推荐理由: 对程序信任和供应链安全提出新的威胁视角，提醒安全从业者即使经过验证的代码也可能被植入隐蔽木马。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Habibur Rahaman, Qipan Xu, Zafaryab Haider, Prabuddha Chakraborty, Swarup Bhunia, Fnu Suya

本文提出了一种针对机器学习基础设施的新型攻击面——寄生基础设施木马（Parasitic Infrastructure Trojan），并展示了具体实现(A)iSpy。现代机器学习流水线高度依赖第三方库进行图编译和硬件加速，现有安全实践主要审计数据、模型工件或依赖文件完整性检查，但执行环境通常被隐式信任。这留给攻击者一个盲点：恶意运行时模块可以直接与实时的训练和推理动态交互。通过这种交互，木马能够实现复杂的攻击目标，远超传统静态代码或二进制修改的能力，甚至可以完成标准数据和模型层面攻击无法实现的操纵。 (A)iSpy采用“主动观察与执行”范式，作为寄生模块运行在计算图中，监视瞬态张量状态，以极低的副效应进行目标性、隐秘的操纵。在机密性方面，木马能够识别所有关键训练超参数，并通过模型权重或输出logits隐蔽地外泄这些参数。在完整性方面，它作为梯度放大器：通过观察隐写触因，将原本弱的数据中毒转化为有效的后门攻击，成功率从接近0%提升至100%。论文还通过附录验证了该攻击在机器学习生命周期中的广泛扩展性，包括子种群标签翻转、可用性中断和推理阶段操纵。 (A)iSpy模块能够轻易逃避标准恶意软件扫描器，其关联的中毒输入和受感染的模型也能绕过典型的检查工具。作者在ONNX Runtime训练和推理引擎中实现了该攻击，证明其实际可行性。这项工作揭示了ML基础设施中新的信任链脆弱性，对依赖第三方库的ML系统构成严重威胁，为安全社区提供了防御研究的新方向。

💡 推荐理由: 揭露了ML基础设施中执行环境的盲点信任问题，提出一种新型、高效且隐秘的寄生木马，能同时破坏机密性和完整性，对生产环境中的ML管道构成实际威胁。

🎯 建议动作: 安全团队应评估自身ML管道对第三方运行时库的依赖情况，研究如何加强执行环境的安全审计与运行时监控。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Jiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen

该论文针对LLM Agent安全领域，揭示了一种新型的多步Trojan攻击范式。在本地Agent harness（如OpenClaw模拟的工作空间）中，LLM能够读写文件、调用工具并在会话间复用工作空间状态。攻击者可以将恶意prompt注入到文件或工具输出中，Agent自动读取这些隐藏指令并持久化存储，后续执行时触发。这种攻击的隐蔽性在于单一步骤看似无害，但组合后可将不可信文本转化为持久控制令牌（如“SYSTEM OVERRIDE”）。现有防御多孤立检测单一步骤，能阻断显式恶意行为，但无法识别植入后门的写操作。作者构建了ClawTrojan基准，在GPT-5.4上实现95.5%的攻击成功率（ASR），而传统单轮prompt injection攻击的ASR接近0%。为应对该威胁，提出DASGuard防护机制：扫描敏感文件中类似控制令牌的文本，追溯其来源，移除不可信来源的控制内容。DASGuard结合运行时攻击阻断与工作空间净化的提交机制，实现了强大的动态防御。实验表明DASGuard能有效检测并阻断多步Trojan攻击，同时保持较低误报率。该工作对于构建安全可靠的LLM Agent系统具有重要参考价值。

💡 推荐理由: 揭示了LLM Agent中prompt injection可转化为持久后门的新型攻击链，现有逐步检测防御失效，需关注跨步骤的复合威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hongtao Wang, Se Yang, Yu Chen, Puzhuo Liu

本文提出了一种针对大型语言模型（LLM）智能体长期记忆系统的隐蔽后门攻击方法——MemPoison。LLM智能体通过长期记忆支持持续自主的任务执行，但记忆系统的选择性提取和重写机制使得传统记忆投毒攻击难以生效。MemPoison通过对话交互将可触发的后门注入智能体长期记忆，从而误导其后续响应。该方法包含三个关键组件：（1）语义关系桥，将触发词与载荷绑定为连贯语句，确保它们被一同提取至记忆；（2）实体伪装，优化触发词使其模仿命名实体，抵抗记忆重写；（3）联合嵌入优化，将包含触发词的文本在嵌入空间中形成紧密簇，并与良性嵌入保持隔离，实现隐蔽性。实验覆盖不同智能体领域和记忆机制，MemPoison攻击成功率高达0.95，显著优于现有基线。机制分析表明，攻击利用了嵌入空间的各向异性并改变了注意力模式，揭示了选择性记忆系统的核心脆弱性。论文还评估了多种防御策略，证明它们在缓解该攻击方面存在根本性局限。该工作适合AI安全研究员、LLM智能体开发者以及关注对抗机器学习的防御者阅读。

💡 推荐理由: 首次展示攻击者通过自然对话即可在LLM智能体长期记忆中植入隐蔽后门，绕过了现有选择性记忆机制，对依赖记忆的自主智能体构成可信赖性威胁。

🎯 建议动作: 研究跟进，评估现有记忆系统的防御能力，并关注后续防御方案。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#trojan

Jinn: Hijacking Safe Programs with Trojans.

(A)iSpy: Parasitic Trojans for Machine Learning Infrastructure

From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction