#large-language-models 主题 - Cyber Security Daily Radar

👥 作者: Bohdan Turbal, Blossom Metevier, Max Springer, Aleksandra Korolova

本文提出了一种名为Greedy Coordinate Diffusion (GCD)的新型对抗攻击框架，用于攻击经过安全对齐的大型语言模型（LLM）。现有攻击方法存在两类问题：基于优化的攻击（如GCG）生成高困惑度、不连贯的后缀，容易被基于困惑度或防护模型的过滤器检测；而保持语义连贯的攻击往往改变查询的语义意图，导致模型响应偏离攻击者的原始目标。GCD利用离散扩散语言模型的生成先验来引导对抗后缀的搜索，在保持低困惑度和高语义一致性的同时实现高效攻击。该方法无需直接梯度访问，可在灰盒设置下运行。实验表明，GCD在攻击成功率（ASR）上达到最高，同时在响应质量得分上具有竞争力，且构造的对抗提示被基于困惑度和防护模型的过滤器检测到的比率低于其他方法。该工作揭示了安全对齐LLM面临的语义连贯对抗攻击风险，为防御研究提供了新的评估基准。

💡 推荐理由: 该工作展示了现有对抗攻击的检测机制可能被更隐蔽的攻击绕过，强调了需要开发对低困惑度、语义连贯攻击更鲁棒的防御手段。

🎯 建议动作: 研究跟进，评估内部LLM部署对此类攻击的脆弱性，并探索针对性防御。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ruixiang Qian, Ding Yang, Zengxu Chen, Yuxuan Gao, Chunrong Fang, Chao Zhang, Zhenyu Chen

本文首次研究了基于变异性（metamorphic）的模糊测试预言增强（MFOE）方法，旨在提升灰盒模糊测试的漏洞检测能力。传统的模糊驱动程序通常仅依赖崩溃预言（crash-based oracle），忽略了库函数功能的正确性验证，限制了发现非崩溃类缺陷的能力。为此，作者提出利用变异性关系（MRs）构造变异性预言，并将其集成到现有模糊驱动中。然而，手动构建和集成此类预言需要大量领域知识，难以自动化。为解决这一挑战，论文提出了MetaFOE框架，借助大型语言模型（LLM）自动生成并集成变异性预言。MetaFOE首先从目标函数接口和文档中提取信息，利用LLM生成候选MRs，然后通过静态分析和编译验证筛选出可用的MRs，再自动生成元驱动程序（meta driver）代码。实验基于OSS-Fuzz项目中的实际驱动程序，使用了三种现代LLM（GPT-4、Claude等）和五种提示策略。结果显示，MetaFOE生成了3475个MRs，其中77.3%可被应用；实现了12351个元驱动，其中6228个有效。经过三小时的模糊测试，有效元驱动平均提升了18.7%的边覆盖率，并触发了1528个独特的崩溃。该工作证明了变异性预言增强的有效性以及利用LLM自动化实现MFOE的可行性，为推进灰盒模糊测试提供了新思路。

💡 推荐理由: 该研究首次将变异性预言的自动化构造引入模糊测试，通过LLM显著降低了人工成本。提升边覆盖率和触发大量崩溃表明其实际效果，对安全测试人员改进模糊驱动、发现非崩溃类漏洞具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Haichao Sha, Zihao Wang, Yuncheng Wu, Hong Chen, Wei Dong

该论文提出了一种名为 DP-SelFT 的差分隐私选择性微调框架，旨在解决大型语言模型（LLM）在微调过程中因使用敏感数据而导致的隐私泄露问题。差分隐私（DP）通过梯度裁剪和噪声注入提供形式化的隐私保护，但常导致模型效用显著下降。现有工作通过结合参数高效微调方法（如 LoRA）来改善隐私-效用权衡，但这些方法主要约束更新的形式。本文探索了互补的方向：选择性微调，即约束更新的位置。DP-SelFT 针对参数选择过程中的三个 DP 特有挑战：避免重复的隐私成本、提高噪声估计下的稳定性、以及选择在裁剪和噪声更新下仍然有用的参数。其核心思想是：首先构建一个轻量级的 DP 合成数据集，并仅在此合成数据上执行参数选择，从而选择阶段不产生额外隐私成本；然后通过临时训练候选层子集（在合成训练集上）并在合成验证集上评估来进行层级别选择。关键在于，这个临时训练是在与下游 DP 微调匹配的扰动机制下进行的，扰动规模与 DP 噪声相同，从而偏向于选择那些不仅可学习而且对噪声私有更新具有鲁棒性的层子集。实验在基准任务上表明，在相同的隐私保证下，DP-SelFT 持续优于现有的 DP 微调基线，改善了隐私-效用权衡。该研究为 LLM 的隐私保护微调提供了新思路，适合对差分隐私、模型微调隐私保护感兴趣的研究者阅读。

💡 推荐理由: 该方法在差分隐私微调中引入选择性更新策略，显著提升了模型效用与隐私保护的平衡，对于处理敏感数据的 LLM 应用具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#large-language-models

Greedy Coordinate Diffusion: Effective and Semantically Coherent Adversarial Attacks via Diffusion Guidance

Investigating Metamorphic Fuzz Oracle Enhancement via Large Language Models

DP-SelFT: Differentially Private Selective Fine-Tuning for Large Language Models