#runtime-monitoring 主题 - Cyber Security Daily Radar

👥 作者: Bernd Finkbeiner, Frederik Scheerer

该论文研究了在隐私敏感环境中，运行时监控系统如何保护敏感信息的问题。现代基于流的监控器会收集被观测系统运行时的详细统计数据，这些数据可能泄露隐私。差分隐私是保护敏感信息的先进方法，但将其集成到运行时监控中面临挑战：时序算子会导致单个输入值随时间影响多个输出，从而反复泄露隐私。论文提出了一种自动在基于流的监控规范中强制实施差分隐私的方法，通过分析时间依赖性并在规范中注入经过校准的噪声来实现。为了保持输出的效用，论文识别了规范中策略性的噪声注入位置，并利用基于树的机制来减轻聚合算子噪声注入带来的精度损失。通过在公共交通使用监控的案例研究，展示了该方法的实用性和有效性。

💡 推荐理由: 为隐私敏感场景下的运行时监控提供了差分隐私自动集成方案，解决了时序算子导致隐私重复泄露的问题。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nay Myat Min, Long H. Pham, Jun Sun

大型语言模型在运行时可能表现出各种异常行为，例如训练时注入的后门在触发词下被激活、越狱攻击绕过安全对齐、提示注入覆盖部署者指令。现有的运行时防御通常针对单一威胁，且依赖干净参考模型、触发知识或可编辑权重，这些假设对不透明的第三方模型往往不成立。本文提出层间收敛指纹（Layerwise Convergence Fingerprinting, LCF），一种无需调优的运行时监控方法。LCF将模型的层间隐藏状态轨迹视为健康信号：对每一层间的差异计算对角马氏距离，通过Ledoit-Wolf收缩聚合，并在200个干净样本上使用留一法校准阈值，无需参考模型、触发知识或重新训练。在四个架构（Llama-3-8B、Qwen2.5-7B、Gemma-2-9B、Qwen2.5-14B）上针对后门、越狱和提示注入三类威胁进行评估（56种后门组合、3种越狱技术、BIPIA邮件和代码问答任务），LCF将Qwen2.5-7B和Gemma-2的平均后门攻击成功率降至1%以下，Qwen2.5-14B降至1.3%；检测92-100%的DAN越狱（GCG和角色扮演为62-100%）；在所有（模型、领域）的8个单元格中100%标记文本载荷注入；后门误报率12-16%，推理开销小于0.1%。单个聚合分数即可覆盖全部三类威胁，无需针对具体威胁进行调整，使LCF成为云服务和设备端LLM的通用运行时安全层。

💡 推荐理由: 提供一种无需修改模型、轻量级的运行时异常检测方法，可同时防御后门、越狱和提示注入，适合保护部署在黑盒或第三方LLM中的应用。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#runtime-monitoring

Differentially Private Runtime Monitoring

Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models