#transformer 主题 - Cyber Security Daily Radar

👥 作者: Xinwen Gao, Shaojing Fu, Lin Liu 0018, Zhuotao Liu, Yuchuan Luo, Yongjun Wang

本文提出 Euston，一种高效且用户友好的安全 Transformer 推理框架，支持非交互式操作，无需客户端与服务器之间进行多轮通信。Euston 结合了多方安全计算（MPC）与同态加密（HE）技术，针对 Transformer 模型中的自注意力机制和前馈网络进行了优化，显著降低了推理时的计算和通信开销。实验表明，在保证机密性的前提下，Euston 在推理延迟和资源消耗方面均优于现有方案，同时保持了与明文推理相当的高精度。该工作为在不可信服务器上安全部署大规模语言模型提供了实用解决方案。

💡 推荐理由: 当前 LLM 推理服务存在严重隐私泄露风险，Euston 首次实现了非交互式安全推理，兼顾效率与易用性，是隐私计算与 AI 交叉领域的重要进展。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sandara Sathsarani Wijethunga, Muneeb Ul Hassan, Nasrin Sohrabi

本文提出FDIFormer，一种无需特征工程的虚假数据注入攻击检测框架，专门针对基于IEC 61850 GOOSE协议的智能电网通信。研究背景：智能电网通过通信网络和智能电子设备实现自动化运行，但互联性增加使其易受网络攻击，其中虚假数据注入（FDI）攻击通过删除、修改或添加数据包操纵通信消息，尤其在IEC 61850变电站中，GOOSE消息负责传输关键保护和控制信息。由于恶意数据包与合法通信高度相似，现有检测方法严重依赖手动设计的协议特征，需要大量领域知识且泛化能力有限。核心方法：FDIFormer将GOOSE数据包序列转换为结构化文本窗口，捕获通信行为，然后利用预训练Transformer模型（如GraphCodeBERT、BERT和RoBERTa）直接学习攻击相关模式。评估使用QUT-ZSS-2023-GOOSE数据集，采用场景级三折交叉验证。结果：GraphCodeBERT达到0.595±0.122的MCC，与最强手工特征基线XGBoost（0.604±0.121）相当，比TF-IDF基线提高0.133。主要贡献：首次证明预训练Transformer表示可有效用于IEC 61850 GOOSE通信中的FDI攻击检测，无需依赖人工特征工程，为工业控制系统安全提供了新思路。适合安全研究人员、智能电网安全工程师和机器学习从业者阅读。

💡 推荐理由: 针对电力系统关键基础设施，提出无需专家特征工程的GOOSE协议FDI检测方法，降低检测门槛，可迁移至其他工控协议防护。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Wenshao Yang, Zhenhua Liu, Dongdong Yao

本文针对安全两方Transformer推理中的密钥切换（key-switching）开销问题展开研究。在现有的隐私保护方案中，线性层通常通过全同态加密（FHE）进行明文-密文或密文-密文矩阵乘法计算，而密钥切换操作主要发生在这些乘法中，并成为计算开销的主要来源。现有优化方法大多依赖于特定的打包（packing）算法，限制了其通用性。本文从独立于打包策略的角度出发，提出了一种预处理辅助的安全注意力计算方法。通过将注意力计算分解为可预计算的操作和在线交互，该方法在不修改现有打包策略的前提下，减少了在线推理阶段的密钥切换次数。然而，将密钥切换转移到离线阶段会引入额外的存储需求。为此，作者提出了存储-通信权衡技术，通过适度的在线通信替代大量预计算密文，从而在不同资源约束下实现灵活部署。针对混合方案和基于FHE的方案中仍存在的离线阶段和后续FHE层中的密文-密文矩阵乘法，作者进一步提出了融合密钥切换技术，专门针对RNS-CKKS矩阵乘法方案中频繁出现的“乘法后接旋转”模式。该技术通过将重线性化（relinearization）和旋转合并为单一过程，降低了相关计算成本。分析评估表明，所提技术能够显著减少在线密钥切换开销，并在不改变现有打包策略的前提下，提供灵活的存储-通信权衡。

💡 推荐理由: 本文为隐私保护Transformer推理提供了普适性优化方法，有助于降低实际部署中的计算开销，对安全多方计算和同态加密领域的研究者和工程人员有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: William Kalikman, Ivo Petrov, Dimitar I. Dimitrov, Martin Vechev

本文提出了一种名为TIGER的新型梯度反演攻击方法，针对联邦学习场景下Transformer模型的隐私泄露问题。联邦学习中，多个客户端协同训练共享模型，仅上传梯度更新至中央服务器，理论上原始输入数据保留在本地。然而，已有的梯度反演攻击表明，这些更新足以泄露客户端输入信息。现有针对Transformer的攻击方法存在局限：优化假输入匹配真实梯度更新对于现代模型成本高且不稳定；或者利用注意力梯度的低秩性识别包含真实层嵌入的子空间，再对候选token进行离散成员测试，但该测试对数值噪声（如量化或差分隐私DP）鲁棒性差，且在非因果注意力编码器模型中扩展性差。TIGER创新性地将子空间信号转化为可微分目标，通过直接优化token嵌入以最小化其到子空间的距离，避免了对完整梯度的匹配或离散搜索。实验表明，在仅编码器模型上，TIGER在重建质量和运行时间上显著优于现有攻击；在解码器模型上，TIGER比基于子空间的先前攻击更具鲁棒性，首次在受差分隐私保护的联邦学习设置中成功实现了输入重建。这项工作揭示了现有联邦学习隐私保护机制的脆弱性，对采用Transformer架构的联邦学习系统构成实际威胁。

💡 推荐理由: 该攻击首次在差分隐私保护的联邦学习设置中成功重建输入，突破了现有防御，对采用Transformer模型的联邦学习隐私保护提出严峻挑战。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zach Moczkodan, Hany Ragab

该论文针对近年来网络入侵检测研究中越来越多地采用循环网络和Transformer等时序架构的趋势，提出质疑：这些模型是否真的利用了时序信息？作者以CIC-IDS2017数据集为基准，将其重构为时序入侵检测任务，通过构建有序流序列，在随机划分、两种无泄漏划分以及填充方案消融实验下，对九种经典和深度学习架构进行了系统评测。核心发现是：对于Transformer，填充约定（padding convention）比架构本身对性能的影响更大。在真正的序列（非填充）窗口上，Transformer取得了实验中最高的宏F1分数（0.89）；但在零填充+掩码评估下，其宏F1显著下降0.24，而LSTM、GRU和1D-CNN保持稳定。在无泄漏分组评估下，随机森林是最稳健的模型（宏F1提升0.009），而Transformer的误报率从0.04%增长到2.7%，增加了67倍，这一现象在常规评估协议下完全不可见。研究表明，评估方法——特别是填充约定和划分协议——对报告性能的影响大于架构选择。广泛使用的随机划分加重复末次填充可能高估模型稳健性多达0.24宏F1。作者提倡未来入侵检测研究采用无泄漏划分、明确披露填充方案以及序列感知基准测试。

💡 推荐理由: 本文揭示了入侵检测模型评估中容易被忽视的漏洞：不合理的时序预处理和评估协议会严重高估模型性能，误导研究结论。安全从业者应警惕论文中报告的高分可能源于评估方法缺陷，并采用更严格的验证流程。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Iván Belenky, Joaquín Itria, Steven Johns

该研究提出一种低成本、高效的reward hacking检测方法，针对强化学习（特别是基于人类反馈的强化学习，RLHF）中奖励模型被操纵的问题。核心方法：训练一个小型Transformer编码器，将Terminal-Wrench环境中的轨迹映射到单位球面上的嵌入向量，使得嵌入之间的距离近似于奖励信号与元数据信号之间的L1距离。然后在该嵌入之上训练一个线性探针（linear probe）来检测reward hacking。实验在清理后的测试集上取得了AUC 0.9467和TPR@5%FPR 0.8296的性能，与使用LLM作为评判器（LLM-as-judge）的基线方法（AUC 0.9510，TPR@5%FPR 0.7130）相当，但前者在每轨迹计算成本上低了约四个数量级。此外，作者验证了编码器并非纯粹的“行为阅读器”：如果在线性探针输入时去除自然语言推理部分（即仅使用不含语言特征的嵌入），AUC降至0.6213，表明语言推理能力对检测至关重要。该方法为在部署前或持续监控中高效筛选可疑轨迹提供了实用工具。

💡 推荐理由: 奖励黑客是RLHF系统中的关键安全风险，现有检测方法（如LLM评判）成本高昂。本工作以极低成本实现了相近的检测能力，为蓝队提供可落地的预防性控制手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Carl Lochstampfor, Ayan Roy

该论文聚焦于多轮短信诈骗（smishing）检测，针对此前工作中提出的合成对话数据集COVA（3,201条标注对话）的局限性进行了扩展。作者指出COVA存在数据污染、标签不匹配、阶段指示泄露以及提示设计缺陷等问题，导致Transformer模型（如BERT）因输入截断和训练数据不足而表现不佳，而基于TF-IDF特征的XGBoost反而取得了最佳性能（准确率72.5%，macro F1 0.691）。为此，论文提出了COVA-X扩展数据集，包含10,985条对话，覆盖8种针对老年人的诈骗类型。通过改进的生成流程，标签纠错率从49.8%提升至3.9%（改善12.7倍），虚拟绑架类对话的人为痕迹率从67.1%降至46.5%。在扩展数据集上重新训练所有分类器后，核心发现是Longformer模型全面超越XGBoost，准确率达到79.71%，macro F1 0.7786，而XGBoost为78.43%和0.7563。这直接证实Transformer模型需要更大规模的对话语料才能发挥其上下文优势。此外，论文还进行了每类诈骗的结果分析，表明诈骗类别对检测效果有机制一致的影响；清洗前后的敏感性分析证实，数据精炼在所有三种分类器架构上都能恢复真正的标签相关信号。该研究为多轮短信诈骗检测提供了更高质量的数据集和更强的基线模型。

💡 推荐理由: 该工作为多轮短信诈骗检测提供了高质量扩展数据集和更强的基线模型，Longformer的优异表现表明上下文建模的重要性，有助于提升安全防护中针对复杂社交工程的检测能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiawen Zhang 0005, Xinpeng Yang, Lipeng He, Kejia Chen 0007, Wen-jie Lu, Yinghao Wang, Xiaoyang Hou, Jian Liu 0012, Kui Ren 0001, Xiaohu Yang 0001

随着ChatGPT等大型语言模型的兴起，安全Transformer推理成为一个重要研究方向。现有的安全推理方案大多采用交互式协议，客户端与服务器之间需要多轮通信，导致通信负载和延迟较高。本文提出了NEXUS，这是首个非交互式安全Transformer推理协议。在NEXUS中，客户端仅需与服务器进行一轮通信：提交加密输入并接收加密结果，整个推理过程无需额外交互。为了实现这一目标，作者引入了多项新型原语，包括SIMD密文压缩/解压缩、SIMD槽折叠以及安全Argmax操作。这些技术使得NEXUS在通信开销上大幅超越现有方案：相比BOLT (Oakland '24) 降低约372.5倍带宽，相比Bumblebee (NDSS '25) 降低约53.6倍。同时，非交互式特性使得协议可以充分利用硬件加速，GPU版本的运行时加速比达到42.3倍。实验表明，NEXUS可以在37.3秒内完成基于BERT模型的推理，仅消耗164 MB带宽。该工作为安全Transformer推理提供了新的范式，尤其适用于带宽受限或需要低延迟的场景，对隐私计算和LLM服务部署具有重要参考价值。

💡 推荐理由: 首次实现了非交互式安全Transformer推理，大幅降低通信开销，使安全推理更贴近实际应用，尤其适用于低带宽或高延迟环境。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Chaeyoung Lee, Chaeri Jung, Seonghoon Jeong

论文提出了一种名为 DRIFT（Drift-Resilient Invariant-Feature Transformer）的框架，用于解决基于深度学习的域名生成算法（DGA）检测器在面对时间漂移时性能严重下降的问题。作者通过一项为期9年（2017-2025）的纵向研究发现，最先进的基于字符和基于单词的DGA分类器在新变种出现时迅速失效。DRIFT 采用混合分词策略（字符级编码捕获随机形态模式，子词级编码处理基于单词的DGA）和多任务自监督预训练来学习不变表示。三个预训练任务使模型在监督微调前学习鲁棒的结构和上下文特征。综合评估表明，该方法显著减轻了时间退化，在前向链实验中持续优于当前最先进的基线。该工作为不断演变的威胁环境中的长期DGA防御提供了可靠基础。代码已开源。

💡 推荐理由: DGA检测是僵尸网络防御的关键环节，但现有深度学习模型因时间漂移而快速失效。DRIFT通过不变特征学习首次系统性解决了这一长期被忽视的问题，对安全运维和威胁情报工作具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhengyi Li, Yakai Wang, Kang Yang, Yu Yu, Jiaping Gui, Yu Feng, Ning Liu, Minyi Guo, Jingwen Leng

本文针对Transformer模型安全推断中的shuffling防御机制展开研究。在安全推断场景中，客户端通过加密协议仅获知模型最终输出，而服务器无法得知客户端输入。然而，非线性层的安全计算因通信轮数和数据传输量巨大而成为效率瓶颈。为提升效率，先前工作选择向客户端暴露中间激活值，使其可以在明文下计算非线性操作，但这一做法使得敌手可能从暴露的激活中提取模型权重。作为缓解措施，现有工作采用shuffling防御，即仅向客户端公开经过随机排列后的激活值，期望通过破坏激活值与权重的对应关系来阻止模型提取。本文证明该shuffling防御远不如先前声称的稳健。作者提出一种攻击方法，首先将不同轮次中经过不同随机排列的激活值对应到同一个排列空间（即对齐），进而利用这些对齐后的激活值恢复模型权重。具体地，攻击者通过观察多次推理中暴露的shuffled激活，利用激活值之间的统计关联推断出排列关系，实现高精度对齐。在Pythia-70m和GPT-2上的实验表明，所提出的攻击可以将shuffled激活对齐到均方误差仅为10^{-9}到10^{-6}的水平。进一步，在查询成本约为1美元的条件下，敌手恢复出的模型权重与真实权重之间的L1范数差异仅为10^{-4}到10^{-2}，几乎完全恢复。该工作揭示了shuffling防御的根本缺陷，提示安全推断设计中需要更加稳健的保护机制。

💡 推荐理由: shuffling防御曾被认为是保护模型权重的有效方案，本论文证明其本质上不安全，攻击者能以极低成本（约1美元）恢复Transformer模型权重，对依赖该技术的安全推断系统构成直接威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mu Yuan, Lan Zhang 0002, Yihang Cheng 0002, Miao-Hui Song, Guoliang Xing, Xiang-Yang Li 0001

本文提出了STIP（Secure Three-party Inference Protocol），一种用于大型Transformer模型在生产环境中的三方隐私保护无损推理方案。研究背景是，随着大型Transformer模型（如BERT、GPT系列）在云服务中的广泛部署，用户输入的隐私保护成为关键挑战。现有的隐私保护推理方法（如安全多方计算、同态加密）往往面临巨大的计算开销或精度损失，且难以直接适配Transformer的复杂结构（如非线性激活函数、自注意力机制）。STIP的核心创新包括：（1）设计了一种高效的秘密共享协议，支持在三个非共谋服务器之间进行线性层和非线性层的无损计算，特别针对Transformer中的GeLU、Softmax等函数进行了优化，通过函数拟合与定点数算术结合，实现了完全无损（即计算结果与明文推理完全一致）。（2）提出了自适应分割策略，将模型按层动态分配给三台服务器，以平衡计算负载和通信开销。（3）在安全性方面，STIP确保了半诚实模型下的隐私保护，任何两台服务器合谋也无法获取用户的输入或模型参数。实验基于多种主流Transformer架构（如BERT-Base、BERT-Large、GPT-2）在标准数据集上进行了评估。结果表明，与现有最佳方案相比，STIP将推理延迟降低了约40%，通信量减少了约30%，同时保持了无损精度。该方案适合对隐私和精度均有严格要求的生产环境，如医疗诊断、金融风控等场景。本文的主要贡献在于首次实现了面向大型Transformer的全流程三方无损隐私推理，并通过系统优化将开销降至实际可行的水平。

💡 推荐理由: 在云服务中使用大型Transformer模型时，用户数据隐私至关重要。STIP提供了首个兼顾隐私、精度和效率的三方推理方案，其无损特性可避免因隐私保护带来的精度下降，对生产部署具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#transformer

Euston: Efficient and User-Friendly Secure Transformer Inference with Non-Interactivity.

FDIFormer:Protocol-Aware Transformer Learning for False Data Injection Attack Detection in Smart Grid Networks

General Techniques for Reducing Key-Switching Overhead in Privacy-Preserving Two-Party Transformer Inference

TIGER: Inverting Transformer Gradients via Embedding-Subspace Distance Optimization

Do Transformers Actually Help Intrusion Detection? A Temporal Sequence Evaluation on CIC-IDS2017

Cheap Reward Hacking Detection

An Expanded Synthetic Conversation Dataset for Multi-Turn Smishing Detection

Secure Transformer Inference Made Non-interactive.

DRIFT: Drift-Resilient Invariant-Feature Transformer for DGA Detection

On the (In-)Security of the Shuffling Defense in the Transformer Secure Inference

STIP: Three-Party Privacy-Preserving and Lossless Inference for Large Transformers in Production.