#moe 主题 - Cyber Security Daily Radar

👥 作者: Z Sun, Q Jiang, S Sheng, L Xiang

本文针对大型语言模型（LLM）水印技术在实际部署中面临的两大挑战——模型性能严重下降和额外推理开销——提出了基于混合专家（MoE）架构的水印方案 WaterMoE。作者首先构建了一个涵盖多种生成任务的综合基准，系统评估了9种代表性水印方法，发现现有方法主要针对文本流畅性设计，在受限或复杂任务上表现不佳，且引入的延迟使其难以用于对延迟敏感的系统。WaterMoE 通过将水印信号嵌入 MoE 模型的每个路由器的专家选择过程中，以受控扰动的方式累积影响最终输出的 token 选择，从而在不显著降低生成质量和计算效率的前提下实现水印嵌入。与作为后处理 token 采样的传统水印方法不同，WaterMoE 将水印嵌入推理循环内部，引入的质量损失和计算开销极低。大量实验表明，该方法在基准测试上达到了接近未加水印模型的保真度，优于现有最新水印方法，且加速比高达4倍，额外推理延迟仅增加1%。本文展示了 WaterMoE 在实际任务中部署的潜力。

💡 推荐理由: LLM 水印是应对内容溯源和滥用的关键技术，但现有方案因性能损失和开销难以落地。WaterMoE 针对 MoE 架构设计的轻量水印方法，为实际部署提供了可行方案，尤其适合对延迟敏感的生产环境。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yudong Gao, Qingyue Wang, Yuanyuan Yuan, Ruixuan Huang, Linghan Chen, Zimo Ji, Shuai Wang

本文关注于混合专家（MoE）大型语言模型的知识产权保护问题。现有的水印方案主要针对密集模型设计，假设水印参数被持续激活，但MoE的动态路由机制打破了这一假设，导致传统水印无法直接应用。此外，MoE模型存在两个关键脆弱性：脆弱的决策边界和路由纠缠（梯度集中覆盖签名）。为此，作者提出了PathMark，首个专为MoE架构设计的水印框架。PathMark创新地将路由作为隐蔽水印通道：当触发时，主动约束所有令牌通过预定的专家子集路由，形成独特的路径签名。该方法包含三种核心机制：1）分布对齐损失，提升目标专家概率至主导水平，扩大决策边界以抵抗扰动；2）宽路径配置，每层指定多个目标专家，增强鲁棒性；3）对比损失，理论上消除梯度泄漏到干净输入，保持其自然路由路径。PathMark天然支持多比特编码（通过组合路径）。验证可通过白盒路由检查（取证场景）或黑盒输出检测（仅API访问）实现。在四个MoE模型上的实验表明，PathMark实现了超过99%的验证准确率，而困惑度下降小于2%，并在量化、微调、剪枝和自适应攻击下表现出优越的鲁棒性。

💡 推荐理由: MoE模型是当前大模型的重要发展方向，其知识产权保护需求迫切。PathMark首次解决了MoE架构下的水印难题，为模型所有权验证提供了可靠的技术方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bo Lv, Zhiheng Xu, KeDong Xiu, Ruyi Ding, Tianhang Zheng, Zhibo Wang, Kui Ren

本文针对混合专家（MoE）大规模语言模型在部署中的安全审计问题，提出了一种非侵入式的审计框架RouteScan。现有的基于内容的审计方法需要访问用户提示、模型输入或生成输出，这可能导致敏感用户信息泄露，在LLM安全性与用户隐私之间产生根本性矛盾。作者观察到，MoE模型中稀疏的专家路由会将不同输入映射为不同的专家执行模式，从而在底层GPU执行遥测中留下可测量的足迹。基于此，RouteScan利用预填充阶段分配给专家模块的活跃GPU线程数作为微架构指纹，构建了一个轻量级的检测流水线，通过分离跨领域不变风险指标来精确识别恶意提示。在具有不同路由设计的开源MoE LLM上的综合评估表明，RouteScan在未见过的有害领域上AUROC超过0.93，在新型越狱包装下超过0.96，展现出强大的泛化能力。此外，经验性的逆向测试显示，收集的专家路由遥测对提示重建提供的信息有限，表明相对于基于内容的审计方法具有实际的隐私优势。

💡 推荐理由: 提出了一种不触及用户提示或模型输出的安全审计方法，在保护隐私的同时检测有害行为，对部署MoE模型的服务提供商具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Md Nurul Absar Siddiky

本文系统分析了Mixtral 8x7B-Instruct稀疏混合专家（MoE）模型在良性提示和有害提示下的路由行为。研究采用两种互补信号：基于专家选择频率的激活路由得分和基于路由器-门灵敏度的梯度得分，从专家级和层级两个尺度进行剖析，并开展专家抑制干预实验。结果表明：激活层面，专家使用广泛且呈长尾分布，而梯度重要性则高度集中；在专家级别，良性组与有害组的路由分布在两种信号下均差异较小；层级上，激活路由在8-15层选择性最强，梯度重要性则集中于最后几层。专家分类显示，大多数专家被两类提示共享，仅有少数专家表现出明显的组别偏好；梯度得分下顶级专家集的重叠程度高于激活得分，表明安全相关路由在后期共享一组专家。干预实验中，抑制激活得分前五的良性主导专家可将受限响应从24降至14（共100个提示），而抑制梯度得分专家可将受限响应从34降至22且意外反转更少。总体而言，Mixtral中与安全相关的路由行为是微妙、深度依赖且分布式的，而非由固定专家集主导。该研究为理解MoE模型的安全对齐机制提供了重要实证基础，有助于设计更鲁棒的LLM安全防护策略。

💡 推荐理由: 本文首次深入揭示MoE架构中路由器在安全提示下的行为模式，发现安全路由具有分布式和深度依赖性，为LLM安全评估、红队测试及针对性专家抑制防御提供了全新视角。

🎯 建议动作: 研究跟进，评估该分析方法对自身LLM安全测试的适用性

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#moe

WaterMoE: Expert-Routing-based Watermarking for High Fidelity and Efficiency

PathMark: Protecting Intellectual Property of Mixture-of-Expert LLMs via Path Watermarks

RouteScan: A Non-Intrusive Approach to Auditing MoE LLMs Safety via Expert Routing Telemetry

Safety-Oriented Routing Analysis of Mixtral MoE Under Benign and Harmful Prompts