#secure-inference 主题 - Cyber Security Daily Radar

👥 作者: Yewon Jeong, Nayoung Jung, Hyeri Roh, Woo-Seok Choi

本文提出 Jaguar，一种用于加速私有卷积神经网络（CNN）推理的新型混合同态加密/两方安全计算（HE/2PC）系统。现有混合协议的性能瓶颈主要来自两个方面：一是使用素数模数同态算术进行卷积操作，这需要基于NTT的多项式乘法，开销较大；二是ReLU激活函数前的精度管理流程要求将比特宽度加倍，然后调用单独的截断协议，增加了通信和计算成本。Jaguar 基于一个核心设计选择——使用2的幂次方密文环——来解决这两个问题。首先，该设计使得 SPA-Conv（标量多项式累积卷积）成为可能，这是一种系数域卷积核，用标量-多项式累积替代了以NTT为中心的多项式乘法，从而降低卷积计算复杂度。其次，通过本地右移位实现精确的密文端截断，使得ReLU可以直接在目标定点精度下运行，无需后续的截断协议。尽管使用了2的幂次方环，但在客户端解密时，NTT仍然有用，用于处理单个多项式乘法。为此，Jaguar 引入了辅助NTT素数，在保持2的幂次方协议基础的同时，使解密复杂度仍为 O(N log N)。实验表明，在禁用AVX的ImageNet规模ResNet-18、ResNet-50和MobileNetV2上，与Cheetah相比，端到端延迟降低2.07-3.72倍，通信量降低1.16-1.76倍；与Rhombus相比，延迟降低2.16-3.36倍。适合对隐私保护机器学习、同态加密加速、安全推理系统设计感兴趣的研究者和工程师阅读。

💡 推荐理由: Jaguar 通过2的幂次方环设计，同时简化了卷积和ReLU截断协议，显著降低了混合HE/2PC CNN推理的延迟和通信开销，为隐私保护机器学习在资源受限场景（如边缘设备）的实用化提供了新路径。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiawen Zhang 0005, Xinpeng Yang, Lipeng He, Kejia Chen 0007, Wen-jie Lu, Yinghao Wang, Xiaoyang Hou, Jian Liu 0012, Kui Ren 0001, Xiaohu Yang 0001

随着ChatGPT等大型语言模型的兴起，安全Transformer推理成为一个重要研究方向。现有的安全推理方案大多采用交互式协议，客户端与服务器之间需要多轮通信，导致通信负载和延迟较高。本文提出了NEXUS，这是首个非交互式安全Transformer推理协议。在NEXUS中，客户端仅需与服务器进行一轮通信：提交加密输入并接收加密结果，整个推理过程无需额外交互。为了实现这一目标，作者引入了多项新型原语，包括SIMD密文压缩/解压缩、SIMD槽折叠以及安全Argmax操作。这些技术使得NEXUS在通信开销上大幅超越现有方案：相比BOLT (Oakland '24) 降低约372.5倍带宽，相比Bumblebee (NDSS '25) 降低约53.6倍。同时，非交互式特性使得协议可以充分利用硬件加速，GPU版本的运行时加速比达到42.3倍。实验表明，NEXUS可以在37.3秒内完成基于BERT模型的推理，仅消耗164 MB带宽。该工作为安全Transformer推理提供了新的范式，尤其适用于带宽受限或需要低延迟的场景，对隐私计算和LLM服务部署具有重要参考价值。

💡 推荐理由: 首次实现了非交互式安全Transformer推理，大幅降低通信开销，使安全推理更贴近实际应用，尤其适用于低带宽或高延迟环境。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zhengyi Li, Yakai Wang, Kang Yang, Yu Yu, Jiaping Gui, Yu Feng, Ning Liu, Minyi Guo, Jingwen Leng

本文针对Transformer模型安全推断中的shuffling防御机制展开研究。在安全推断场景中，客户端通过加密协议仅获知模型最终输出，而服务器无法得知客户端输入。然而，非线性层的安全计算因通信轮数和数据传输量巨大而成为效率瓶颈。为提升效率，先前工作选择向客户端暴露中间激活值，使其可以在明文下计算非线性操作，但这一做法使得敌手可能从暴露的激活中提取模型权重。作为缓解措施，现有工作采用shuffling防御，即仅向客户端公开经过随机排列后的激活值，期望通过破坏激活值与权重的对应关系来阻止模型提取。本文证明该shuffling防御远不如先前声称的稳健。作者提出一种攻击方法，首先将不同轮次中经过不同随机排列的激活值对应到同一个排列空间（即对齐），进而利用这些对齐后的激活值恢复模型权重。具体地，攻击者通过观察多次推理中暴露的shuffled激活，利用激活值之间的统计关联推断出排列关系，实现高精度对齐。在Pythia-70m和GPT-2上的实验表明，所提出的攻击可以将shuffled激活对齐到均方误差仅为10^{-9}到10^{-6}的水平。进一步，在查询成本约为1美元的条件下，敌手恢复出的模型权重与真实权重之间的L1范数差异仅为10^{-4}到10^{-2}，几乎完全恢复。该工作揭示了shuffling防御的根本缺陷，提示安全推断设计中需要更加稳健的保护机制。

💡 推荐理由: shuffling防御曾被认为是保护模型权重的有效方案，本论文证明其本质上不安全，攻击者能以极低成本（约1美元）恢复Transformer模型权重，对依赖该技术的安全推断系统构成直接威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#secure-inference

Jaguar: Fast Private CNN Inference with Power-of-Two Homomorphic Arithmetic

Secure Transformer Inference Made Non-interactive.

On the (In-)Security of the Shuffling Defense in the Transformer Secure Inference