本文针对混合专家(MoE)大规模语言模型在部署中的安全审计问题,提出了一种非侵入式的审计框架RouteScan。现有的基于内容的审计方法需要访问用户提示、模型输入或生成输出,这可能导致敏感用户信息泄露,在LLM安全性与用户隐私之间产生根本性矛盾。作者观察到,MoE模型中稀疏的专家路由会将不同输入映射为不同的专家执行模式,从而在底层GPU执行遥测中留下可测量的足迹。基于此,RouteScan利用预填充阶段分配给专家模块的活跃GPU线程数作为微架构指纹,构建了一个轻量级的检测流水线,通过分离跨领域不变风险指标来精确识别恶意提示。在具有不同路由设计的开源MoE LLM上的综合评估表明,RouteScan在未见过的有害领域上AUROC超过0.93,在新型越狱包装下超过0.96,展现出强大的泛化能力。此外,经验性的逆向测试显示,收集的专家路由遥测对提示重建提供的信息有限,表明相对于基于内容的审计方法具有实际的隐私优势。
💡 推荐理由: 提出了一种不触及用户提示或模型输出的安全审计方法,在保护隐私的同时检测有害行为,对部署MoE模型的服务提供商具有重要参考价值。
🎯 建议动作: 研究跟进