#language-model

共收录 3 条相关安全情报。

← 返回所有主题
👥 作者: Malikeh Ehghaghi, Boglárka Ecsedi, Marsha Chechik, Colin Raffel

本文提出了一种基于计算压力的对抗鲁棒性评估框架,用于衡量大型语言模型(LLM)在对抗性攻击下的实际安全性。传统的评估方法通常以固定查询预算下的攻击成功率(ASR)作为指标,忽略了不同攻击策略在计算开销上的巨大差异(可能相差数个数量级)。为解决这一问题,作者引入累积浮点运算次数(FLOPs)作为攻击成本的代理,提出了风险-计算曲线(risk-compute curves),将计算预算映射到攻击风险,并推导出两个总结指标来量化攻击成功所需的平均压力。在10个不同模型(涵盖3个模型系列、4个训练和对齐阶段)上,使用三种攻击策略(基于梯度的、迭代细化的、基于模板的)对两个越狱鲁棒性基准进行了评估。主要发现包括:(1)对齐训练在计算空间鲁棒性上表现出非单调效应;(2)增大模型规模能降低基于梯度的攻击有效性,但对成本更低的模板攻击影响有限;(3)基于梯度的攻击在代理模型上优化后可迁移到另一个目标模型,从而降低攻击者成本;(4)在单个模型内,不同危害类别的计算成本差异可达约5倍;(5)安全对齐的强化学习增加了总体成本,但使某些类别不成比例地更容易被攻击。作者开源了该框架以支持计算感知的风险评估。

💡 推荐理由: 为LLM对抗鲁棒性评估引入了计算成本维度,使安全从业者能更真实地衡量攻击的实际可行性,指导防御资源分配。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Vivek Kumar Sharma

该论文提出了一种名为PLM-NIDS的协议语言模型网络入侵检测系统,其核心思想是将网络流视为一种语言,其语法完全由L3/L4数据包元数据(长度、到达间隔时间、TTL、TCP标志和哈希端口号)构成,从而避免了对加密载荷的深度包检测(DPI)。作者首先证明了良性网络流存在可学习的语法结构:使用RWKV-4状态空间模型在344,232个未标记的Monday流数据上训练,因果语言模型验证损失达到0.204,表明良性流量具有可预测的统计一致性。其次,攻击行为违反了该语法:在无攻击标签训练的情况下,每个流的困惑度(perplexity)得分能干净地区分良性和攻击流,PR-AUC达到0.93。第三,这种分离能力在架构上是非平凡的:在相同输入序列上训练的LSTM退化为多数类预测器(ROC-AUC约0.50,F1=0.91,始终预测攻击),证明RWKV的因果预训练提供了直接分类器无法获得的归纳偏置。监督微调进一步将PR-AUC提升至0.94,ROC-AUC达到0.75,在标定操作阈值上精确度为97.7%。RWKV骨干的O(T)循环推理使得无需流缓冲即可进行逐包流式处理,从而使PLM-NIDS在线速下操作可行。由于仅读取IP/TCP/UDP头部,该方法本质上是加密无关的,可透明处理TLS 1.3、QUIC及未来加密协议。

💡 推荐理由: 为加密流量下的入侵检测提供了全新思路,无需解密即可通过元数据语义发现攻击,解决了传统NIDS在加密流量面前的失效困境。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: J. Vijayavallabh

本文对 Anchored Decoding 中使用的 k-NAF (k-ary Normalized Attention Flow) 预算核算机制进行了实证审计。研究采用两类实验:一是固定、类别分层的负载(约 8500 次随机执行,覆盖六种提示类别),二是针对高代理支出比率的自适应提示搜索流程。在固定负载下,平均累积 KL 散度远低于序列级预算 K(K=600 和 1000),且基于经验 Bernstein 风格的代理指标在所有类别中均低于 K;表面重叠诊断(ROUGE-L 和 5-gram Jaccard)相应较小。自适应搜索提高了代理支出比率,但未导致预算明显耗尽。在 k=3 的保留版权域负载中,一些提示在早期停止评估且实现样本量较小时,代理比率超过 1;使用更大分配重新评估相同提示后,在可比平均支出下代理比率降至 [0.26, 0.40] 范围,这更符合代理伪影而非每条轨迹的预算失败。因此,该机制在实践中有效,未发现系统性预算违规。

💡 推荐理由: 该论文实证评估了 Anchored Decoding 中防止超额计算的关键预算机制,对 LLM 服务的安全性(如拒绝服务防护、成本控制)具有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)