#secure-inference

共收录 2 条相关安全情报。

← 返回所有主题
推荐 9.5
Conf: 50%
👥 作者: Jiawen Zhang 0005, Xinpeng Yang, Lipeng He, Kejia Chen 0007, Wen-jie Lu, Yinghao Wang, Xiaoyang Hou, Jian Liu 0012, Kui Ren 0001, Xiaohu Yang 0001

本文提出NEXUS,首个用于安全Transformer推理的非交互协议。现有解决方案(如BOLT、Bumblebee)均为交互式,需要客户端与服务器之间进行多轮通信,导致大量带宽消耗和延迟。NEXUS将整个过程简化为客户端仅需一次通信:提交加密输入并接收加密结果。为此,作者引入了多个新原语,包括SIMD密文压缩/解压缩、SIMD槽折叠和安全Argmax,显著降低了通信开销,同时保持了可比的运行时间。实验表明,与BOLT相比,带宽消耗减少372.5倍,与Bumblebee相比减少53.6倍。此外,非交互特性使得能够利用硬件加速,GPU版本实现运行时42.3倍加速,在BERT模型上推理仅需37.3秒,带宽仅164 MB。该协议基于安全多方计算(MPC)和同态加密(HE)技术,为大规模部署隐私保护的Transformer推理提供了高效方案。

💡 推荐理由: Transformer推理的安全性对于LLM服务至关重要,NEXUS的非交互设计大幅降低通信开销,消除交互延迟,使安全推理更接近实用,特别适合低带宽或高延迟环境。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhengyi Li, Yakai Wang, Kang Yang, Yu Yu, Jiaping Gui, Yu Feng, Ning Liu, Minyi Guo, Jingwen Leng

本文针对Transformer模型安全推断中的shuffling防御机制展开研究。在安全推断场景中,客户端通过加密协议仅获知模型最终输出,而服务器无法得知客户端输入。然而,非线性层的安全计算因通信轮数和数据传输量巨大而成为效率瓶颈。为提升效率,先前工作选择向客户端暴露中间激活值,使其可以在明文下计算非线性操作,但这一做法使得敌手可能从暴露的激活中提取模型权重。作为缓解措施,现有工作采用shuffling防御,即仅向客户端公开经过随机排列后的激活值,期望通过破坏激活值与权重的对应关系来阻止模型提取。本文证明该shuffling防御远不如先前声称的稳健。作者提出一种攻击方法,首先将不同轮次中经过不同随机排列的激活值对应到同一个排列空间(即对齐),进而利用这些对齐后的激活值恢复模型权重。具体地,攻击者通过观察多次推理中暴露的shuffled激活,利用激活值之间的统计关联推断出排列关系,实现高精度对齐。在Pythia-70m和GPT-2上的实验表明,所提出的攻击可以将shuffled激活对齐到均方误差仅为10^{-9}到10^{-6}的水平。进一步,在查询成本约为1美元的条件下,敌手恢复出的模型权重与真实权重之间的L1范数差异仅为10^{-4}到10^{-2},几乎完全恢复。该工作揭示了shuffling防御的根本缺陷,提示安全推断设计中需要更加稳健的保护机制。

💡 推荐理由: shuffling防御曾被认为是保护模型权重的有效方案,本论文证明其本质上不安全,攻击者能以极低成本(约1美元)恢复Transformer模型权重,对依赖该技术的安全推断系统构成直接威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)