本文提出NEXUS,首个用于安全Transformer推理的非交互协议。现有解决方案(如BOLT、Bumblebee)均为交互式,需要客户端与服务器之间进行多轮通信,导致大量带宽消耗和延迟。NEXUS将整个过程简化为客户端仅需一次通信:提交加密输入并接收加密结果。为此,作者引入了多个新原语,包括SIMD密文压缩/解压缩、SIMD槽折叠和安全Argmax,显著降低了通信开销,同时保持了可比的运行时间。实验表明,与BOLT相比,带宽消耗减少372.5倍,与Bumblebee相比减少53.6倍。此外,非交互特性使得能够利用硬件加速,GPU版本实现运行时42.3倍加速,在BERT模型上推理仅需37.3秒,带宽仅164 MB。该协议基于安全多方计算(MPC)和同态加密(HE)技术,为大规模部署隐私保护的Transformer推理提供了高效方案。
💡 推荐理由: Transformer推理的安全性对于LLM服务至关重要,NEXUS的非交互设计大幅降低通信开销,消除交互延迟,使安全推理更接近实用,特别适合低带宽或高延迟环境。
🎯 建议动作: 研究跟进