#moe

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Bo Lv, Zhiheng Xu, KeDong Xiu, Ruyi Ding, Tianhang Zheng, Zhibo Wang, Kui Ren

本文针对混合专家(MoE)大规模语言模型在部署中的安全审计问题,提出了一种非侵入式的审计框架RouteScan。现有的基于内容的审计方法需要访问用户提示、模型输入或生成输出,这可能导致敏感用户信息泄露,在LLM安全性与用户隐私之间产生根本性矛盾。作者观察到,MoE模型中稀疏的专家路由会将不同输入映射为不同的专家执行模式,从而在底层GPU执行遥测中留下可测量的足迹。基于此,RouteScan利用预填充阶段分配给专家模块的活跃GPU线程数作为微架构指纹,构建了一个轻量级的检测流水线,通过分离跨领域不变风险指标来精确识别恶意提示。在具有不同路由设计的开源MoE LLM上的综合评估表明,RouteScan在未见过的有害领域上AUROC超过0.93,在新型越狱包装下超过0.96,展现出强大的泛化能力。此外,经验性的逆向测试显示,收集的专家路由遥测对提示重建提供的信息有限,表明相对于基于内容的审计方法具有实际的隐私优势。

💡 推荐理由: 提出了一种不触及用户提示或模型输出的安全审计方法,在保护隐私的同时检测有害行为,对部署MoE模型的服务提供商具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Md Nurul Absar Siddiky

本文系统分析了Mixtral 8x7B-Instruct稀疏混合专家(MoE)模型在良性提示和有害提示下的路由行为。研究采用两种互补信号:基于专家选择频率的激活路由得分和基于路由器-门灵敏度的梯度得分,从专家级和层级两个尺度进行剖析,并开展专家抑制干预实验。结果表明:激活层面,专家使用广泛且呈长尾分布,而梯度重要性则高度集中;在专家级别,良性组与有害组的路由分布在两种信号下均差异较小;层级上,激活路由在8-15层选择性最强,梯度重要性则集中于最后几层。专家分类显示,大多数专家被两类提示共享,仅有少数专家表现出明显的组别偏好;梯度得分下顶级专家集的重叠程度高于激活得分,表明安全相关路由在后期共享一组专家。干预实验中,抑制激活得分前五的良性主导专家可将受限响应从24降至14(共100个提示),而抑制梯度得分专家可将受限响应从34降至22且意外反转更少。总体而言,Mixtral中与安全相关的路由行为是微妙、深度依赖且分布式的,而非由固定专家集主导。该研究为理解MoE模型的安全对齐机制提供了重要实证基础,有助于设计更鲁棒的LLM安全防护策略。

💡 推荐理由: 本文首次深入揭示MoE架构中路由器在安全提示下的行为模式,发现安全路由具有分布式和深度依赖性,为LLM安全评估、红队测试及针对性专家抑制防御提供了全新视角。

🎯 建议动作: 研究跟进,评估该分析方法对自身LLM安全测试的适用性

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)