#LLM 主题 - Cyber Security Daily Radar

👥 作者: Md Shihabul Islam, Murat Kantarcioglu

本文提出了 Ruleengine，这是一个利用大型语言模型（LLM）将用户的自然语言描述自动转换为有效且安全的物联网（IoT）自动化规则的工具。随着物联网设备的普及，用户倾向于使用自然语言来表达自动化需求，但将这种非结构化描述转化为平台特定的触发-动作规则格式仍存在挑战。Ruleengine 包含三项核心创新：首先，设计了一种结构化提示工程框架，结合明确的输出结构和语义约束定义，引导 LLM 生成符合语法和语义要求的规则；其次，采用基于检索增强生成（RAG）的架构，通过语义搜索和上下文重排序技术提升规则生成的准确性和相关性；第三，提出了一种上下文感知的安全评分机制，能够评估规则在触发条件和动作后果方面的潜在安全风险，例如设备冲突或权限滥用。实验基于真实数据集，在多种 LLM 上评估了该工具的性能，结果表明，与基线方法相比，Ruleengine 在生成规则的语法正确性和语义正确性上均有显著提升，并且能够成功识别出生成规则中的安全违规。此外，论文还全面比较了不同 LLM、提示工程策略、嵌入技术和 RAG 配置之间的性能权衡，揭示了准确率、延迟和计算效率之间的关系。该工作对于提升智能家居自动化的易用性和安全性具有重要价值。

💡 推荐理由: 该工作解决了用户用自然语言定义 IoT 规则时易产生不安全或无效规则的问题，安全从业者可借鉴其安全评分机制来检测自动化规则中的风险，减少因错误规则导致的物理世界危害。

🎯 建议动作: 推荐安全研究人员和 IoT 平台开发者跟进该工具的设计思路，并评估将其集成到现有规则引擎中的可行性

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Heeyun Heo, Sangmin Park, Huy Kang Kim, Sanghoon Jeon

该论文针对汽车行业CVE描述与Auto-ISAC汽车威胁矩阵（ATM）之间自动映射的置信度问题展开研究。由于CVE描述侧重于技术条件和影响，而ATM表达的是攻击者的战术和技术，两者表示方式不对齐，导致在安全关键环境中错误的自动映射可能扭曲威胁解读和缓解优先级。因此，本文提出了一种置信度感知的LLM路由框架，将汽车CVE到ATM的映射重构为选择性自动化问题。该框架首先通过分层上下文学习（hierarchical in-context learning）生成候选映射，然后融合自一致性（self-consistency）和基于LLM的证据验证信号，通过校准的元模型输出置信度分数。该分数将每个候选映射路由至三种操作之一：AUTO（自动确认）、REVIEW（需要分析师审查）或HOLD（暂不处理）。在评估集上，该系统在匹配召回率下显著提升了候选集精确度，相比扁平零样本GPT-5.2基线，高置信度模式下AUTO层的精确度达到0.878，是候选集基准率的两倍以上，且校准置信度分数在区分正确和错误候选上的AUROC达到0.868。实验证明该框架能够通过隔离可自动确认的映射与需要分析师审查的映射，支持选择性自动化。本文适合汽车安全分析师、SOC团队以及研究LLM在安全领域应用的学者阅读。

💡 推荐理由: 该研究解决了汽车行业CVE映射中人工审查瓶颈，通过置信度感知的LLM路由提升自动化可靠性，减少误报与漏报，直接助力安全运营效率。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chengheng Li-Chen, Kyuhee Kim

欧盟《人工智能法案》等监管法规要求对合成文本进行机器可读标记，但现有水印检测方法通常依赖生成语言模型（LM）和启发式阈值，缺乏闭合形式的校准机制。本文提出 ChainMark，一种无需生成模型访问的活动水印方案。该方法通过密钥控制的 SHA-256 哈希将词汇表划分为 S 个状态，并对文本中占比 ρ 的位置强制施加硬马尔可夫转移；检测器使用相同密钥重放划分过程，仅需 O(n) 次哈希运算即可完成检测，无需访问任何 LM。理论方面，论文推导出闭合形式的 S*(n, ρ, α) 公式，该公式将目标假阳性率（FPR）、文本长度和预算映射为最小状态数（定理 1）；证明了一个普适鲁棒性阈值 δ* = 1 - 1/√2 ≈ 29.3%，该阈值对 (S, ρ, n) 不变（定理 2）；并将上述结论推广至任意 k-正则转移拓扑（定理 3）。实验在三个指令微调大语言模型和四个领域（如新闻、论文等）上进行，结果显示：在翻译攻击和随机替换攻击下，ChainMark 在相同预算下严格优于 KGW 和 SWEET 两种基线方法；通过单语料库经验重校准，可在自然语言文本上恢复 1% 的目标 FPR。该工作为合成文本水印提供了理论保证与实用方法，适合 AI 安全、内容溯源、监管合规等方向的研究者阅读。

💡 推荐理由: ChainMark 无需访问生成模型即可检测水印，并提供理论保障的假阳性率控制，有助于蓝队或 SOC 人员对 AI 合成内容进行高效溯源与监管，提升对模型输出伪造或篡改的检测能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yuge Zhang, Yuanxing Zhang, Yichao Jin, Khairul Amsyar Mohd Razis, Nicholas Qi An Choo, Kai Yin Anders Wong, Xinyan Tang, Kenneth Zhu Ke, Wee Keong Dennis Lee, Jingyuan Zhao

论文提出一个端到端的可解释钱骡账户检测管道，解决大规模金融欺诈中恶意账户识别的难题。管道分为三个阶段：首先，基于280个手工特征（涵盖交易模式、账户人口统计、网络拓扑和时间行为）训练LightGBM分类器进行初始检测；其次，利用TreeSHAP对每个预测进行特征归因分解，生成贡献度向量；最后，通过大语言模型（LLM）模块将SHAP归因结果转化为面向分析师的自然语言叙事。研究评估了三个开源LLM系列，并通过分析师反馈评价解释质量。在真实生产部署中，系统 yield rate 从基于规则的61%提升至89%，月度告警量从211增至302，表明真阳性覆盖范围扩大而非噪声增加。新增告警中60%为现有审查流程未发现的恶意行为。定性反馈表明，LLM生成的叙事降低了告警分类的认知负荷。论文进一步讨论了在监管金融环境中部署LLM增强可解释性的影响。主要贡献在于提出了首个结合机器学习、可解释性与生成式人工智能的端到端钱骡检测方案，并验证了其在真实环境中的有效性。适合金融安全分析师、欺诈检测工程师及可解释AI研究者阅读。

💡 推荐理由: 钱骡账户是金融欺诈的关键环节，传统规则方法识别率低。本工作将机器学习可解释性与LLM结合，显著提升检测覆盖率和分析师效率，适合金融行业蓝队参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Ivan Alejandro Montoya Sanchez, Anantaa Kotal, Aritran Piplai

本文提出SMETA-ZSL，一种面向网络安全威胁分类的零样本学习方法。传统监督学习依赖大量标注数据，但新出现的威胁类别往往缺乏标记样本。零样本学习通过利用辅助语义知识（如自然语言描述）来识别未见过的类别。大型语言模型可将非结构化的网络威胁情报（CTI）报告转换为语义原型，为新兴威胁提供表征。然而，网络安全领域存在威胁描述语义重叠、行为特征与文本异构、类别严重失衡以及开放集条件等问题。SMETA-ZSL通过以下创新解决这些挑战：首先，使用对比微调从重叠的语言描述中学习语义原型；其次，通过情景元学习和知识蒸馏将行为特征与语义原型对齐；最后，采用自适应路由机制在已见和未见类别之间泛化。在7个基准数据集上，SMETA-ZSL在严格的归纳设置下取得了最优的广义零样本性能，平均超过先前方法10.8个百分点，最高提升18.1个百分点。该方法有望提升安全运营中心对未知威胁的自动化检测能力。

💡 推荐理由: 该方法使安全系统无需标注样本即可识别新兴威胁，显著降低对人工标签的依赖，提升威胁情报的自动化利用效率。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zhangheng LI, Jianing Zhu, Junyuan Hong, Sungmin Eum, Shuowen Hu, Suya You, Zhangyang Wang

该研究针对多模态大语言模型（MLLM）中的机器遗忘（Machine Unlearning）机制的安全性提出质疑。MLLM在训练时可能无意中编码了隐私敏感数据，因此多模态机器遗忘（MMU）被用于强制模型遗忘这些信息。但作者发现，当模型公开后，恶意用户可通过一种名为“提示优化参数抖动”（POPS）的对抗策略，近乎完整地恢复出本应被遗忘的知识。POPS方法包含两个阶段：首先通过后缀优化（prompt-suffix optimization）诱导受害者模型生成潜在的隐私样本；然后利用这些合成输出对模型进行微调，从而揭露真实的隐私信息。实验在多个MMU基准测试上进行，结果表明现有MMU算法存在严重缺陷，POPS能够实现近乎完全的知识恢复，揭示了基于MMU的隐私保护存在根本性漏洞。该论文对MLLM隐私保护领域提出了严峻挑战，提示安全从业者需要重新审视和加强遗忘机制的鲁棒性。

💡 推荐理由: 该研究暴露了多模态大模型机器遗忘机制的根本性脆弱性，证明即使模型执行了遗忘操作，攻击者仍可通过对抗方法恢复隐私信息，威胁到数据隐私保护的有效性。

🎯 建议动作: 研究跟进，评估自身模型的机器遗忘机制是否易被类似POPS方法攻破，并部署对抗测试流程。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yige Wang, Shiqi Yi, Hanzhou Wu

传统的自适应图像隐写成本函数设计需要大量手动调参，而深度学习方法又缺乏可解释性。大语言模型（LLM）通过进化生成提供了一种自动化替代方案，但由于缺乏显式领域知识，常常违反领域特定的数学约束。为了解决这一问题，本文提出了一种新颖的进化系统，利用检索增强生成（RAG）增强的LLM，自动生成空间图像隐写的代码级成本函数。该系统的核心是自进化RAG（SE-RAG）模块，其中代码语义签名（CSS）将过程代码转换为对齐的查询，从静态文献和动态经验知识库中检索显式指导，从而引导LLM生成过程。一个专门的反馈机制不断用成功的优化策略优化动态知识库。在BOSSBase和BOWS2数据集上的大量实验表明，该框架比现有的自动设计方法始终获得更高的隐写安全性，同时将平均代码执行率提高了46.3%，搜索成本降低了26.1%，从而凸显了将LLM与领域知识相结合在自动隐写算法生成领域的有效性、高效性和潜力。本文适合对隐写术、自动化算法设计以及LLM应用感兴趣的研究人员和安全从业者阅读。

💡 推荐理由: 该研究首次将RAG与LLM结合用于隐写成本函数自动生成，显著提升了隐写安全性和代码执行效率，为隐写分析防御提供了新思路，值得关注LLM在安全领域应用的研究者跟进。

🎯 建议动作: 研究跟进，评估该方法对隐写检测和防御的潜在影响

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Utkarsh Tiwari, Spoorthi M, Anirudh S, Nidhin Prabhakar T.

随着软件漏洞的日益复杂和频繁，传统的分析方法在处理大量非结构化文本数据时往往效率低下，迫切需要更先进的解决方案。本研究利用基于大型语言模型（LLM）的最先进主题建模技术，从软件漏洞数据集的'Threat'特征中提取有价值的见解。研究中采用了多种模型，包括BERTopic、Top2Vec、CombinedTM、Llama2结合BERTopic以及Mixtral，并结合了降维和聚类方法（如UMAP、PCA、HDBSCAN和DBSCAN）。通过发现潜在的主题模式并生成可解释的聚类，该方法增强了网络威胁的优先级排序和决策过程。实验结果表明，这些技术能够有效地从漏洞描述中自动识别和分类威胁类型，为漏洞管理提供可扩展、自动化的解决方案。这项研究对于安全分析师和漏洞管理人员特别有用，可以帮助他们更快速地理解大量漏洞数据中的关键威胁，从而优化响应策略。

💡 推荐理由: 该研究将先进的LLM主题建模应用于漏洞分类，能够自动化处理非结构化漏洞文本，提升威胁分析和优先级排序的效率，对安全团队应对海量漏洞数据具有实际意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yuqiang Sun, Han Liu, Ying Li, Yiran Zhang, Zong Cao, Ziyun Guo, Yang Liu

该论文提出 EvoVuln，一个自动生成智能合约漏洞检测程序化知识的框架。现有基于大语言模型（LLM）的方法存在局限：基于提示的方法依赖人工设计的检测规则，而微调则需要大量标注样本，这在智能合约领域难以获取。EvoVuln 将漏洞检测重新定义为程序化知识进化问题，仅需极少量标注样本即可合成并精炼检测逻辑。其核心机制包括两个部分：一是运行时反转控制（IoC）架构，将检测规则编译为可执行策略，严格解耦确定性控制流与 LLM 语义推理，确保忠实遵循逻辑并产生密集的诊断遥测用于精确定位错误；二是两阶段进化流水线，通过溯因语义调试在没有参数更新的情况下精炼规则：冷启动阶段利用自动生成的边缘案例初始化并压力测试初始规则，少样本进化阶段仅使用每种漏洞类型 5 个漏洞样本和 5 个安全样本将策略锚定到真实世界语义。在五种真实漏洞类型上的评估显示，EvoVuln 达到 71% 的宏平均 F1 分数，优于所有基线。进化得到的程序化知识可跨模型迁移：使轻量低成本模型超过更大的零样本模型 19 个百分点，且无需重新训练即可迁移到其他 LLM，单次进化成本低于 50 美元。该研究适合安全研究员、智能合约开发者及 LLM 应用开发者阅读。

💡 推荐理由: 提出一种低成本、高可迁移的智能合约漏洞检测方法，突破 LLM 依赖大量标注数据的瓶颈，且知识可跨模型复用，为自动化漏洞检测提供了新范式。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Aoying Zheng, Anqi Du, Zizhuang Deng, Yuxuan Chen

模型量化是降低大语言模型存储和推理开销的关键技术，但最近的研究表明，量化引入的离散化和舍入误差可被攻击者利用，构造量化条件后门攻击。在这种攻击下，恶意行为在全精度阶段保持休眠，仅在量化部署后激活，从而绕过传统的安全审计和检测机制。针对这一威胁，本文提出了一种主动的预量化防御方法 QuantGuard。该方法引入了可微的舍入控制变量，并结合了误差引导的舍入反转约束、输出分布一致性和权重距离正则化，以精细调控关键的舍入行为。关键的是，QuantGuard 仅使用少量校准数据集，且不修改现有量化算法。这种设计打破了攻击者精心构造的权重模式与量化边界之间的精确对齐，有效抑制了量化后的后门激活路径，同时保持了模型的原始功能和性能。作者在六个主流大语言模型（包括 LLaMA-3 和 Qwen2.5-Coder）上，使用三种量化精度（INT8、FP4 和 NF4），在三个代表性场景（易受攻击代码生成、内容注入和过度拒绝）下进行了系统实验。结果表明，QuantGuard 能够持续缓解量化条件后门攻击，将攻击成功率降低到与干净模型相当的水平，同时在通用能力基准测试上基本保持性能。该方法计算开销低，为安全量化部署 LLM 提供了一种有效实用的解决方案。

💡 推荐理由: 量化是LLM部署的关键技术，但量化条件后门攻击可绕过传统安全审计。本文提出的QuantGuard防御方法能在不改变量化算法的前提下有效抑制后门，为实际安全部署提供了重要保障。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Gerhard Backfried, Christian Schmidt, Diego Pilutti, Michael Suker

该论文提出了一种利用大语言模型（LLM）支持外国维和任务威胁评估的新方法。研究基于PINPOINT项目及其在欧盟格鲁吉亚监测任务中的实际用例，结合跨学科风险模型、开源情报（OSINT）媒体收集和LLM辅助的威胁提取。工作流程将媒体报道映射到任务相关的威胁类型，提取结构化信息，并应用多个基于LLM的后处理步骤以提高相关性和事实依据。实验评估显示，在威胁识别和任务相关性等核心方面，自动生成的结果与人工判断具有高度一致性。这一结果表明，LLM有望成为支持维和任务分析师的有力工具。论文适合安全情报人员、维和任务规划者以及从事LLM应用的研究人员阅读。

💡 推荐理由: 该研究展示了LLM在特定安全场景（维和威胁评估）中的实用价值，为自动化情报分析提供了新思路，尤其适用于开源信息环境下的结构化威胁提取。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Lea Roxanne Muth, Marian Margraf

本文针对NIS-2指令下中小企业面临的风险管理合规压力，聚焦德国联邦信息安全办公室（BSI）制定的IT-Grundschutz（IT-GS）认证自动化问题。IT-GS认证依赖大量人工文档、验证与修订，成本高且难以规模化。作者在前期概念框架基础上，实现了结合混合检索增强生成（HybridRAG）的多智能体系统（MAS）架构，用于部分自动化IT-GS认证流程。主要技术贡献包括：结构分析阶段引入假设-验证循环，将智能体推断的依赖关系与知识图谱交叉引用以减少幻觉；以及解耦推理管道，将智能体驱动的语义提取与确定性保护需求继承分离。实验采用BSI的“RecPlast GmbH”案例研究作为人工专家参考数据集，对架构进行端到端评估，量化精确率、召回率和F1分数。系统在结构分析和建模等语义任务上表现高效，显著减少了人工工作量；但在保护需求评估和IT-GS检查等逻辑推理阶段，由于当前大语言模型的概率性本质难以满足IT-GS所需的确定性严格性，定量结果显示出局限性。该研究展示了将LLM与知识图谱结合用于合规自动化的潜力，但指出了在需要严格逻辑推理环节的瓶颈。

💡 推荐理由: 该研究为自动化安全合规审计提供了创新思路，结合多智能体与图增强检索，解决了LLM在确定性任务中的不足，对面临NIS-2合规压力的企业具有参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Aydin Abadi, Vishnu Asutosh Dasu, Sumanta Sarkar

本文针对联邦学习场景中数据去重面临的隐私和可扩展性挑战，提出了一种高效隐私保护的多方去重协议 EP-MPD。在联邦学习中，不同客户端的数据可能存在重复样本，去除这些重复能提升模型性能并节省训练时间与能耗。然而，传统去重需要聚合各方数据，会泄露隐私。EP-MPD 基于两个新颖的私有集合交集（PSI）协议变体构建，采用模块化设计，能够在多个客户端数据集上安全高效地移除重复数据，而无需暴露原始数据。实验表明，在大型语言模型的联邦训练中，当重复率在 10%-30% 时，应用 EP-MPD 可使困惑度（perplexity）最多降低 19.62%，运行时间最多减少 27.95%。该协议在隐私和性能之间取得了良好平衡，适用于大规模联邦学习应用。本文的主要贡献包括：首次针对联邦学习提出隐私保护去重协议，设计两种高效的 PSI 变体，并通过实验验证了去重对联邦 LLM 训练的显著收益。适合隐私保护机器学习、联邦学习及大模型训练领域的研究者和工程师阅读。

💡 推荐理由: 该研究为联邦学习中数据去重的隐私泄漏问题提供了首个实用解决方案，能显著提升 LLM 训练效率，对隐私合规要求高的跨机构合作场景具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bacem Etteib, Daniele Lunghi, Tégawendé F. Bissyandé

本文针对LLM智能体在加载第三方技能（skill）时面临的安全威胁展开研究。技能是以自然语言指令编写的文件包，由第三方开发者编写并通过市场分发，执行时拥有用户特权。恶意技能可窃取数据、劫持智能体或在供应链中持久化，使技能市场成为新的攻击面。现有提示注入防御不适用于此场景，因为它们依赖于可信指令与不可信数据之间的边界，而技能本身即指令集合，注入命令混入合法指令中并继承其权限。为此，作者提出Locate-and-Judge两阶段检测器：第一阶段使用轻量级定位器（locator），根据每条指令被遵循的注意力分数（instruction-following attention）对技能的各个结构跨度（span）进行评分，仅保留得分最高的K个跨度；第二阶段由判断器（judge）详细检查这些保留跨度。将昂贵的判断集中在小部分高注意跨度上，使检测器能够审计整个市场而非抽样。与直接基于LLM的扫描相比，该方法将成本降低一个数量级，大幅提升可扩展性，同时仅牺牲少量召回率。在可比成本下，其表现优于关键词和正则表达式基线。部署于市场级别规模且成本极低时，Locate-and-Judge能够以高精度标记可疑技能，其中大部分经验证为恶意，发现了数十个活跃恶意技能，包括多个伪装成良性功能的技能，以及许多被SkillSpector和Cisco Skill Scanner漏检的技能。作者还发布了标注数据集。本文适合AI安全研究员、LLM应用开发者及平台安全运维人员阅读。

💡 推荐理由: LLM智能体技能市场是新兴攻击面，现有提示注入防御失效。本文提出首个规模化、低成本的恶意技能检测方案，直接威胁供应链安全，值得智能体平台和蓝队关注。

🎯 建议动作: 研究跟进：评估方法在自身智能体系统上的适用性，考虑集成至技能审核流程。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Sidnei Barbieri, Ágney Lopes Roth Ferraz, Wagner Comin Sonaglio, Gioliano de Oliveira Braga, Henrique Curi de Miranda, Lourenço Alves Pereira Júnior

该论文提出ARENA架构，旨在解决网络防御研究中真实生产数据难以获取的问题。当前安全运营中心（SOC）的数据虽然真实，但因隐私和合规原因无法直接发布，导致研究依赖合成或过时数据集。ARENA设计了一套方法论，从金融SOC的生产环境中提取SIEM数据，通过匿名化、结构化并验证，在保证隐私边界的前提下保留任务相关的调查结构。两个消费者对同一人工制品进行压力测试：作为训练材料，匿名化需保持时间顺序和实体一致性，否则37个映射了MITRE ATT&CK的HIKARI挑战会失败；作为测量基板，在200个SOCpilot事件中，确定性验证器检测到大语言模型（LLM）执行了人类基线中不存在的不合规动作。最终成果是定义了可测量的隐私-效用边界，而非形式化的匿名声明。该方法使研究者能利用真实数据进行网络防御可迁移性实验，同时保护敏感信息。

💡 推荐理由: 解决了安全研究中生产数据不可用与合成数据代表性不足的核心矛盾，提供了可复现的隐私保护数据转化方法，对LLM辅助SOC的评估验证具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ahmed Ryan, Saad Sakib Noor, Md Erfan, Shaswata Mitra, Sudip Mittal, Md Rayhanur Rahman

本研究针对开源大语言模型（LLM）在多标签MITRE ATT&CK技术分类任务上的表现进行了系统性评估。当前已有的自动化方法大多基于简化后的单技术句子进行评测，无法体现真实网络威胁情报（CTI）报告中复杂的语言和多步骤攻击模式，导致性能被高估。为填补这一空白，作者构建了一个包含2,076条人工标注句子的基准数据集（其中1,281条为正样本，795条为负样本），这些句子来自83份复杂非结构化CTI报告，并映射到114种独特的ATT&CK技术。标注过程采用六阶段流程，达到了交换机间一致性κ=0.68。在此基础上，评估了7个开源LLM（参数量从8B到236B），测试了不同提示策略和温度配置的影响。结果显示，性能最佳的模型微平均F1分数仅为0.22，确立了复杂非结构化CTI报告上多标签ATT&CK分类的实证基线。统计分析表明，参数量与F1分数呈显著正相关，但提示策略和温度设置未带来统计显著的性能提升。结论是当前开源LLM尚不足以支撑生产级ATT&CK分类任务，本研究为未来CTI研究提供了可复现的数据集、基准测试和发现。

💡 推荐理由: 该研究首次在真实复杂CTI报告上评估开源LLM的多标签ATT&CK分类能力，揭示了当前技术的实际性能瓶颈，为安全运营团队选择自动化工具提供了可靠基线。

🎯 建议动作: 研究跟进，将基准数据集和评估框架纳入内部CTI工具测试。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Joseph Walusimbi, Joshua Benjamin Ssentongo

该论文针对零售银行和企业银行面临的两类欺诈威胁——基于签名的欺诈（如无卡支付攻击、账户接管、ATM克隆）和基于行为的金融犯罪（如结构化交易、分层洗钱、钱骡网络、商业邮件诈骗）——提出了一种AI安全代理融合架构。这两类威胁的检测需求根本不同：静态规则引擎能可靠捕获暴力攻击和高频事件，但对商业邮件诈骗（BEC）的资金重定向、会话劫持和洗钱分层等精心设计以在单笔交易或会话层面与正常活动无法区分的行为则存在结构性盲区。论文提出的三组件融合架构运行在两条并行事件流上：交易流（卡欺诈、ACH/电汇欺诈、反洗钱类别）和会话流（账户接管、会话劫持、SIM卡交换、内部滥用）。每个流结合了三个组件：捕捉每个账户行为历史的LSTM序列模型、统计速度/阈值监控器、以及捕捉账户对手关系模式（扇入、扇出、传递比）用于洗钱检测的图/网络模块。在包含13个威胁类别、3,470个模拟账户的237,669笔交易和113,508次会话的合成事件日志上的实验表明，所提模型的总体F1分数在交易流上为0.787，会话流上为0.867，而基于规则的基线分别为0.562和0.733，仅LSTM的基线分别为0.655和0.713。此外，该代理包含面向客户的交易验证聊天机器人（身份验证准确率96.6%，大规模重置攻击检测率86.8%）和分析师案例摘要助手（动作推荐F1为99.3%），关键级别自动响应延迟在95百分位数下低于0.43毫秒。

💡 推荐理由: 该研究针对银行安全中签名欺诈与行为金融犯罪难以统一的检测难题，提出融合LSTM、统计监控和图网络的架构，显著优于规则和纯LSTM基线，对金融行业安全体系升级具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chenghao Chen, Kailun Qin, Xiaolin Zhang, Chi Zhang, Dawu Gu

本研究提出 Bifrost，一种融合可信执行环境（TEE）与全同态加密（FHE）的混合推理架构，旨在解决云端 Transformer 和大语言模型（LLM）推理中的用户隐私保护问题。当前云端推理存在直接机密性风险：用户提示可能包含敏感代码、业务数据、个人信息或受监管文件，但远程服务会将中间状态暴露给云端软件栈和加速器运行时。全同态加密（FHE）能在加速器端保持纯密文执行，但端到端 LLM 推理因线性层与非线性、缓存状态和刷新敏感算子交错而成本高昂。CPU 可信执行环境（TEE）可原生执行这些算子，但单独的 CPU TEE 无法定义不可信加速器如何参与。Bifrost 的核心思路是将秘密仅提供给经过认证的 CPU TEE，而加速器、设备内存、驱动/运行时栈和主机软件均不在可信计算基内。它利用 FHE 作为安全委托机制，在加速器支持的 CKKS 上执行投影和前馈线性层，同时非线性算子、注意力侧控制逻辑、KV 状态转换以及解密-再加密刷新均在 CPU TEE 内部执行。进一步地，Bifrost+ 应用了预填充/解码分离：提示侧 KV 状态在 CPU TEE 内构建，仅解码侧状态进入混合密文路径。在采用 Euston 方法论进行估计风格对比时，Bifrost 在 GPT-2（1.5B）上预测延迟降低 9.25 倍，在 LLaMA 3（8B）上降低 9.91 倍。在直接 CKKS/FHE 部署中，Bifrost+ 在 GPT-2（124M）上将首词延迟（TTFT）降低 14.6-45.8 倍，在 Qwen3（0.6B）上降低 15.3-53.4 倍。本工作的系统教训是选择性加密执行：仅在需要加速器纯密文委托时使用 FHE，而将非线性、刷新和提示侧工作保留在 CPU TEE 内。该研究适合关注隐私保护推理、TEE 与 FHE 混合方案的安全工程师和研究人员。

💡 推荐理由: 该方案针对云端LLM推理的隐私保护痛点，提出一种实用且高性能的混合架构，为安全从业者提供了在不牺牲性能的前提下保护用户数据的思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Liuyang Yao, Zhouyu Li, Junguang He, Ziyang You

该论文研究AI辅助金融咨询（如信用评估、投资顾问）中存在的隐蔽操纵通道。作者发现LLM推理的采样层存在一个漏洞，允许攻击者在保持与输出审计机制（包括统计水印）完全兼容的情况下，系统性偏置AI生成的金融意见。这种推理阶段的操纵在统计上难以检测：操纵输出与正常输出分布之间的KL散度可以任意小，使得基于输出的检测方案需要不可实际的大样本量才能达到可靠检测。实验在信用评级和投资顾问场景中显示，在隐蔽性感知操纵下，定向偏置关键词可被放大1.8-1.9倍，同时触发零个黑盒检测器并保持水印完整性。该漏洞在三种主流水印方案和三种异构模型架构上均有效，构成系统性金融基础设施风险。软件防御（如密码学安全的伪随机数生成器）完全无效，而QRNG结合TEE硬件隔离通过用量子熵替换可预测的哈希密钥，使所有预计算操纵目标无效，实现了100%攻击阻断（将目标率降至自然基线）。作者提出四项监管修正，核心是要求高风险金融AI系统根据NIST SP 800-90B进行强制性QRNG认证、推理层供应链审计和输出溯源机制。本文适合关注AI安全、金融监管、LLM供应链安全的研究人员和监管者阅读。

💡 推荐理由: 揭示了一种隐蔽且难以检测的AI操纵通道，直接威胁金融市场的诚信与监管有效性。防御方案需要硬件级改造（QRNG+TEE），对现有AI审计体系构成挑战。

🎯 建议动作: 研究跟进：评估自身系统是否依赖可预测的随机数生成；考虑将QRNG硬件集成纳入安全路线图。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Xinlei He 0001, Xinyue Shen 0001, Zeyuan Chen 0002, Michael Backes 0001, Yang Zhang 0016

本文提出了 MGTBench，一个用于评估机器生成文本 (MGT) 检测方法的统一基准测试框架。随着以 ChatGPT 为代表的大型语言模型 (LLM) 在文本分类、情感分析、翻译、问答等 NLP 任务中展现出强大能力，机器生成文本的检测变得日益重要。这些模型能够生成与人类写作难以区分的语言，引发了关于真实性、责任归属和潜在偏见的担忧。然而，现有的 MGT 检测方法在模型架构、数据集和实验设置上各不相同，缺乏全面的评估体系。MGTBench 旨在填补这一空白，通过标准化评估流程，系统比较不同检测方法（包括统计、神经网络和基于水印的方法）在多种 LLM（如 GPT-2、GPT-3、ChatGPT、LLaMA 等）生成文本上的性能。实验覆盖了不同领域、长度和语言的数据集，揭示了当前检测方法在面对强大 LLM 时的局限性，例如对 GPT-3.5 和 GPT-4 的检测准确率显著下降。主要贡献包括：提出了一个统一的评估框架；提供了多种检测算法和生成模型的标准化实现；分析了检测性能与文本长度、语言、领域等因素的关系；为未来研究提供了基准和方向。该工作对于理解 LLM 生成文本的检测挑战具有重要参考价值，适合 NLP 安全研究者、AI 伦理研究者及需要部署文本真实性验证的系统开发者阅读。

💡 推荐理由: 机器生成文本检测是应对 LLM 滥用的关键防线，MGTBench 提供了首个统一评测标准，帮助安全社区客观比较不同检测方法，并揭示当前方法对先进 LLM 的失效风险。

🎯 建议动作: 研究跟进，考虑将 MGTBench 作为内部检测方案评估的参考框架

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Xiaoting Zhang, Zhipeng Gao, Yiran Lv, Xing Hu, Feifei Niu, Xin Xia

该论文提出了 GiANT 自动化框架，旨在解决智能合约审计数据集构建中的人工可扩展性瓶颈以及数据粒度和多样性不足的问题。GiANT 采用分治策略结合思维链技术，从 Code4rena 平台上的真实审计报告中提取结构化漏洞信息，并通过 LLM 作为裁判机制进行严格的质量保证。研究者在 388 份真实审计报告上运行 GiANT，生成了包含 7,711 个漏洞发现、覆盖五个严重级别的 GiAnt Corpus 数据集。手动评估显示信息提取可靠性极高，平均质量得分 4.76/5，评分者间一致性 κ=0.88。进一步，他们使用该数据集对四个最先进的 LLM 在漏洞检测、代码摘要、缓解建议和自动 Gas 优化任务上进行基准测试，建立了性能基线，为自动化智能合约审计的未来研究提供了宝贵的数据基础。

💡 推荐理由: 该工作提供了一个高质量、大规模、多粒度的智能合约审计数据集，有助于推动自动化审计工具和大型语言模型在区块链安全领域的研究与评估。

🎯 建议动作: 研究跟进，考虑将该数据集纳入智能合约安全工具的评估基准。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Farooq Shaikh

该论文提出一个名为FORGE的多智能体系统，旨在打通漏洞披露、利用优先级排序和检测规则工程三个通常孤立的研究领域。当前自动化利用生成系统仅报告二元通过/失败结果，丢弃部分进展，且不产生对其他两个领域有用的信号。FORGE通过“渐进式利用深度”作为桥梁机制，由五个专用智能体（Intel、Generator、Planner、Exploit、Detector）组成固定流水线：(1) 从CVE元数据生成针对性漏洞应用；(2) 通过LLM主评估器在四级分类（L0无证据到L3完全利用）下进行引导式多轮利用尝试；(3) 基于OpenTelemetry利用轨迹生成Sigma和Snort检测规则。深层利用产生更丰富的行为轨迹，有助于检测规则工程；而跨评分带的深度数据为优先级排序验证提供真实依据。分层知识架构跨评估累积情报，将构建和利用经验迁移到后续CVE。在CVE-GENIE数据集的603个CVE上评估，实现了67.8%的端到端L1+利用成功率，每个CVE成本1.50美元，覆盖8种语言和187种CWE类型。无论EPSS或CVSS评分高低，利用率均接近68%，表明模式级可达性与基于元数据的优先级排序正交。L2+利用导出的检测规则相比L1规则具有显著更高的跨度归一化基础性（p=0.035），93.4%的Snort规则在合成良性语料上产生零误报。

💡 推荐理由: 该研究首次将自动化利用生成、优先级排序和检测规则工程集成到一个多智能体系统中，解决了长期存在的社区隔离问题，显著提升了检测规则的生成质量和利用成功率，为安全团队提供了高效的自动化评估和检测能力。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sivana Hamer, Pat Morrison, William Enck, Yasemin Acar, Michel Cukier, Alexandros Kapravelos, Christian Kästner, Dominik Wermke, Laurie Williams

本文报告了2025年7月9日由美国国家科学基金会（NSF）支持的Secure Software Supply Chain Center（S3C2）举办的政府安全供应链峰会（S3C2 Summit 2025-07）的讨论内容。峰会汇集了来自6个美国政府机构的12名参与者，以及3名S3C2研究人员，旨在促进跨行业经验分享、建立新合作关系，并了解参与者面临的挑战以指导未来研究。讨论覆盖六个主题：软件物料清单（SBOM）的实践与标准化、合规性与政策落地、恶意代码提交的检测与预防、构建基础设施安全（如CI/CD管道）、安全文化培养，以及大语言模型（LLM）在安全中的应用与风险。每个主题均以问题列表和此前两次行业峰会的总结为引导。报告提供了各主题的对话摘要，并附有初始讨论问题清单。尽管未提出新方法或实验，但该峰会反映了美国政府在软件供应链安全方面的优先关注领域，尤其强调SBOM的采用、恶意提交的溯源以及LLM对供应链安全的双重影响（既可辅助检测，也可能被攻击者利用）。

💡 推荐理由: 软件供应链攻击日益频繁，政府机构是重点目标。该峰会汇总了美国联邦机构实际面临的挑战（如SBOM推行困难、恶意提交难以溯源），为安全从业者提供了政策与实践的窗口，有助于理解政府级安全需求。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Ojas Nimase, Zhe Chen, Gengpei Qi, Yue Zhao, Xiyang Hu

大语言模型（LLM）越来越多地用于对用户查询的产品、文档和推荐进行排名，这使得操纵这些排名成为影响公平性和信息完整性的一个日益严重的问题。生成式引擎优化（GEO）领域的研究已经提出了许多操纵方法，但每种方法都在自己的数据集上使用自己的指标进行评估，导致它们的相对强度和可检测性尚不明确。为了填补这一空白，该论文提出了GEO-Bench，一个统一的基准测试，用于在统一协议下评估GEO排名操纵攻击。GEO-Bench整合了黑盒提示型攻击（如TAP、Zero-Shot）、白盒梯度型攻击（如STS、RAF、StealthRank）以及十种白帽C-SEO策略。它使用固定的开放权重排名模型（Llama-3.1-8B-Instruct）在五个数据集上评估每种方法，并采用衡量有效性（NRG、Success@α、Promote@α）和隐蔽性（关键词违反率、困惑度比）的指标。评估结果表明，有效性和隐蔽性在对抗性攻击之间存在权衡；黑盒内容重写在排名提升方面与梯度型攻击相当或更优，同时能生成更流畅的文本，并且在某些领域可以逃避基于关键词和困惑度的检测；此外，访问模型并不能预测攻击强度。通过标准化数据集、攻击实现和指标，GEO-Bench实现了对这些攻击范式的首次直接比较，并支持检测方法的开发。该工作对研究LLM安全、搜索引擎优化和信息安全的从业者具有重要参考价值。

💡 推荐理由: GEO攻击可能被用于推广恶意内容、操纵搜索结果，威胁信息完整性。该基准首次统一比较了多种攻击方法的有效性与隐蔽性，有助于蓝队理解攻击能力并开发检测手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yutong Cheng, Changze Li, Raihan Sultan Pasha Basuki, Qian Cui, Wei Ding, Peng Gao

该论文提出了一种名为TTPrint的新型TTP提取方法，旨在从网络威胁情报（CTI）报告中准确提取MITRE ATT&CK技术。现有方法（基于规则、监督学习、大语言模型）难以同时实现高召回率和高精确率：规则和监督方法泛化能力差，而LLM方法将候选生成和验证耦合在单次推理中，导致召回率和精确率均受限。受分析师工作流程启发，TTPrint采用“先发散后收敛”的设计。在发散阶段，报告被分解为原子行为，并广泛提出候选技术；随后通过确定性跨度定位将每个候选锚定到源文本中的特定证据窗口；收敛验证阶段仅保留被本地化证据和权威MITRE定义共同支持的候选。作者还贡献了两个评估资源：清理后的TRAM基准（TRAM-Clean）和新的标注数据集（TTPrint-Bench），以解决现有基准中的标注噪声问题，并将任务提升到文档级TTP提取。实验表明，在TRAM-Clean和TTPrint-Bench上，TTPrint的宏F1分别达到76.48%和87.39%，比最佳基线分别提高63.5%和29.4%。多骨干网络分析（6种LLM）和阈值敏感性研究进一步证明了方法在不同模型选择上的泛化能力，并为参数选择提供了实用指导。

💡 推荐理由: 准确提取TTP是威胁情报分析和自动化响应的基础，现有方法精度和召回率难以兼得。TTPrint通过证据驱动和分阶段验证显著提升效果，为蓝队和SOC分析师提供了可靠的工具。

🎯 建议动作: 研究跟进，评估TTPrint方法在自身威胁情报流程中的适用性，考虑集成其开源实现（若有）。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xianglin Yang, Bryan Hooi, Gelei Deng, Tianwei Zhang, Jin Song Dong

本文针对LLM作为评判者（LLM-as-a-judge）模式中存在的文体偏见问题，提出了一种名为BITE（BIas exploraTion and Exploitation）的黑盒对抗攻击框架。研究背景是：LLM评判器在评估文本时，会表现出对特定文体特征（如冗长性、句子结构）的偏好，这构成了一个被忽视的安全漏洞。BITE框架通过语义保持的文本编辑来误导LLM评判器，人为地提高评分。该方法将文体编辑的选择建模为上下文bandit问题，并采用LinUCB策略自适应地选择能最大化评判器得分的编辑方式，无需访问模型参数或梯度。实验在多种LLM评判器和任务上进行，包括聊天机器人排行榜的点对点比较和AI评审基准测试。BITE实现了超过65%的攻击成功率，并在9分量表上将评分提升1-2分，同时保持语义等价。此外，论文评估了攻击的隐蔽性，显示BITE能够规避标准的风格控制方法和多种检测基线。该研究揭示了LLM-as-a-judge范式的根本弱点，并推动了鲁棒的、对抗感知的评估方法。

💡 推荐理由: 该研究揭示了LLM评判器因文体偏见而存在的安全漏洞，可能被攻击者利用来操纵AI评估结果，影响排名、评审等关键任务。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Oleksandr Adamov, Davide Fucci, Felix Viktor Jedrzejewski, Ricardo Britto, Nishrith Saini

本文研究如何验证威胁建模结果的有效性。传统的验证方法通常依赖专家产生的参考模型或人工基线，但这些方法可能存在遗漏或意见不一致的问题。作者提出一种基于易受攻击的测试应用（vulnerable test applications）的互补验证方法：对已知存在特定漏洞集的系统进行威胁建模，然后测量发现了多少相关漏洞，从而量化威胁模型的覆盖度。作者将团队开发的 LLM 辅助威胁建模工具 ThreMoLIA 与微软威胁建模工具（MTMT）进行对比，在两个易受攻击的应用——AzureGoat 和 Vulnerable Bank Application（VulnBank）上进行了实验。输入仅限于架构图、数据流图及其描述。结果显示，ThreMoLIA 在两个系统上均实现了更高的漏洞覆盖率。研究表明，易受攻击的测试应用可以作为评估威胁覆盖度的实用基准，并补充基于专家的验证方法。

💡 推荐理由: 威胁建模结果的验证长期缺乏客观基准，本文提出的基于已知漏洞应用的评估方法为工具比较和模型改进提供了可重复的量化手段。

🎯 建议动作: 研究跟进，考虑将类似基准测试纳入内部威胁建模工具评估流程。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chengyan Ma, Jieke Shi, Ruidong Han, Ye Liu, Feng Li, Yuqing Niu, David Lo

可信执行环境（TEE）通过硬件隔离保护敏感数据和计算免受受损操作系统的攻击。然而，TEE应用不可避免地需要通过SDK接口与不可信的操作系统交互，不当的代码分区可能导致严重漏洞，如数据泄露和代码注入。先前工作提出了静态分析工具检测此类问题，但自动修复仍未被探索。本文提出了TEERepair框架，自动修复TEE应用中的不良分区问题。该框架引入领域特定语言（DSL）编码修复规则，表达常见TEE安全模式，并实例化为带有上下文特定变量占位符的补丁模板。然后利用大语言模型（LLM）推理代码语义并合成上下文感知的补丁，同时生成测试客户端验证修复。在TEE分区错误基准（PartitioningE-Bench）上评估，TEERepair的修复成功率达87.6%，显著高于基线。此外，应用于真实TEE项目，提交了5个修复PR，其中2个已被确认合并。这项工作为TEE安全开发提供了自动化的分区修复能力，有助于减少人工审计负担。

💡 推荐理由: TEE应用的分区漏洞是严重的安全问题，但手动修复成本高且容易出错。TEERepair利用LLM自动化修复，为开发者和安全团队提供了高效工具，有望提升TEE应用的整体安全性。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Evan Luo, Julien Piet, David Wagner

安全分析师日常需要查询系统日志来检测威胁和调查事件，但不同日志源使用各自不同的半结构化格式，导致日志虽易产生却难使用。传统方法是为每种格式构建解析器将日志标准化为结构化模式（如SQL表），虽强大但需要持续工程投入。而直接使用grep等工具查询原始日志虽无需解析成本，但分析师需了解每种日志的消息变体，且无法表达安全调查所需的多行时间关联查询。本文提出Sieve系统，通过将大型语言模型（LLM）与轻量级自动提取的日志格式上下文相结合，从自然语言的安全问题生成可执行查询代码，每次查询仅需一次LLM调用，后续进行确定性执行。在覆盖5种日志类型的133个安全查询上评估，Sieve在复杂时间关联和跨事件查询上的错误率比分析师手动编写脚本降低超过3倍，尤其在对活跃调查最关键的多行关联任务上提升最大。实验证明，LLM生成的代码能够弥合结构化日志查询的表达能力与直接操作原始文件即时性之间的鸿沟。本文适合安全分析工具开发者、SOC团队及日志管理研究人员阅读。

💡 推荐理由: 提出了一种无需预定义解析器即可自然语言查询安全日志的方法，大幅降低分析师门槛和工程维护成本，在复杂事件关联场景下表现优异。

🎯 建议动作: 研究跟进，评估是否引入内部日志查询流水线替代或辅助人工编写查询。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zhiyong Sui, Lamine Noureddine, Mst Eshita Khatun, Sideeq Bello, Justin Woodring, Aisha Ali-Gombe

该论文提出了一种利用大语言模型（LLM）自动生成YARA规则的方法，以绕过沙箱环境中的恶意软件逃逸检测。现代恶意软件常使用环境检查（如检测虚拟机、调试器）来规避自动分析，而现有技术依赖人工逆向工程每种逃逸机制来编写绕过规则，难以跟上快速演变的逃逸技术。作者提出了ABLE系统，通过分析因潜在逃逸行为而终止的恶意软件执行轨迹，采用多种推理策略（如少样本学习、思维链）生成针对性的绕过规则。为解决LLM输出中的语法错误并提高规则有效性，引入了自动消毒流水线和反馈驱动的迭代优化。在334个真实恶意软件样本上对四个开源LLM进行测试，ABLE实现了79%的绕过成功率，其中迭代优化贡献了29.5%的成功案例。与现有分析平台相比，ABLE能多识别47%的恶意软件家族分类，并揭示先前隐藏的恶意行为。该研究展示了LLM在对抗性安全场景中的应用潜力，为自动生成沙箱逃逸规则提供了可扩展的解决方案，适合恶意软件分析师和沙箱开发者阅读。

💡 推荐理由: 提供了一种自动化生成沙箱逃逸绕过规则的方法，显著降低人工逆向成本，提升恶意软件分析覆盖率。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Aman Saxena, Jan Schuchardt, Yan Scholten, Stephan Günnemann

本文提出了一种基于差分隐私的原偶视角（primal-dual perspective）来证明机器学习模型对后门攻击的鲁棒性。后门攻击同时污染训练数据和测试数据，使得现有仅针对训练时或推理时单一阶段的随机平滑认证方法失效。作者将随机平滑与差分隐私中的隐私配置文件（privacy profiles）相结合，该配置文件提供了一种数值化方法来组合异构随机机制。由此得到的框架能够对复杂的组合机制进行紧致、模块化的端到端认证，同时可以利用现有差分隐私机制的分析结果。作者将该框架实例化到DP-SGD（差分隐私随机梯度下降）和深度分区聚合（Deep Partition Aggregation）并加入推理时平滑，推导出同时对抗训练时和后门注入、推理时触发器激活的联合鲁棒性保证。在MNIST和CIFAR-10上的实验表明，该方法能够有效认证模型在联合威胁模型下的鲁棒性。本文为使用组合机制认证复杂威胁模型下的鲁棒性提供了一个通用且原则性的框架。

💡 推荐理由: 后门攻击是AI安全的核心威胁，现有认证方法大多只针对单一阶段攻击。本文提出的联合认证框架填补了同时认证训练时和推理时攻击的空白，有助于构建更可信的AI系统。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chang Liu 0089, Jie Zhang 0073, Tianwei Zhang 0004, Xi Yang, Weiming Zhang 0001, Nenghai Yu

该论文提出了一种名为“音色水印”（Timbre Watermarking）的防御方法，用于检测语音克隆攻击。随着语音克隆技术的进步，攻击者可能利用公开的语音数据非法模仿特定人物的音色。为此，作者设计了一个端到端的防御框架，核心思想是将水印嵌入到语音的频域中。频域水印对常见的语音预处理（如压缩、降噪）具有内在鲁棒性。为了进一步增强鲁棒性，采用了重复嵌入策略。同时，为了泛化应对多种语音克隆方法，论文调制了不同克隆攻击的共享过程，并将其作为失真层集成到框架中。实验表明，该方法能有效防御多种语音克隆攻击（包括基于重构的移除攻击和水印覆写攻击），并在实际服务（如PaddleSpeech、Voice-Cloning-App、so-vits-svc）中验证了实用性。此外，消融研究验证了设计组件的有效性。该方法的优势在于：1）无需依赖攻击者的具体实现，即可泛化抵御不同克隆方法；2）水印嵌入不影响原始语音质量；3）对自适应攻击具有强抵抗能力。该研究适合语音安全、AI安全领域的研究者和开发者关注。

💡 推荐理由: 语音克隆滥用风险日益严重，该工作首次提出“音色水印”概念，为保护个人语音版权和防止身份冒用提供了新思路，对语音安全领域具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Nikhil Kumar Dora, Sumit Kumar Tetarave, Rishikesh Sahay, Madhusudan Singh, Xiaoqing Li

该论文针对钓鱼攻击检测问题，系统评估了多种机器学习算法在不同来源的异构数据集上的表现。研究使用了公开的UCI数据集、通过EvilGinx和Zphisher等工具生成的模拟数据集以及AI生成的数据集。实验中比较了经典模型（Logistic Regression）、集成模型（CatBoost）、神经网络（CNN）和基于Transformer的模型（DistilBERT），其中DistilBERT达到了最高准确率99.78%。为增强模型可解释性，论文引入了信息增益、SHAP和LIME等可解释AI（XAI）技术，分析影响分类结果的关键特征。此外，论文设计并实现了一个基于MCP（Master Control Program？根据上下文推测为某种部署框架）的钓鱼URL检测系统，支持实时URL分析、特征提取、基于置信度的分类以及AI辅助的安全解释。实验结果表明，集成模型和Transformer模型在钓鱼检测任务上表现优异，同时XAI技术有助于理解模型决策，提升信任度。该研究为构建可解释且高效的钓鱼检测系统提供了实证基础。

💡 推荐理由: 钓鱼攻击是数据泄露的主要入口之一，该研究全面对比了多种模型在多样化数据集上的效果，并引入可解释AI增强透明性，对安全运维人员选择合适检测方案具有参考价值。

🎯 建议动作: 研究跟进，评估方法在自身环境中的适用性

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Rui Wen, Mark Russinovich, Andrew Paverd, Jun Sakuma, Ahmed Salem

该论文提出了一种新型后门攻击方法 MetaBackdoor，利用 Transformer 架构中位置编码 (Positional Encoding) 的内在特性作为触发器，而不需要修改输入文本内容。现有的后门攻击大多依赖内容触发器（如特定词语、句子），容易被基于文本异常的防御机制检测。作者的核心洞察是：Transformer 模型在处理有序序列时必须编码 token 位置信息，因此输入长度相关的结构会反映在模型内部计算中，可以被用作非内容触发器。论文展示了即使简单的基于长度的位置触发器也能激活隐匿的后门行为。与之前攻击不同，MetaBackdoor 作用于可见且语义正常的输入，使后门 LLM 在满足长度条件时泄露敏感内部信息（如专有系统提示），甚至出现自激活场景——正常的多轮交互可将对话上下文推至触发区，诱导恶意工具调用行为，而无需攻击者提供触发文本。此外，MetaBackdoor 与基于内容的后门正交，可组合使用以创建更精确、更难检测的触发条件。实验证明该方法在多种 LLM 架构上有效。该工作扩展了 LLM 后门的威胁模型，揭示了位置编码这一被忽视的攻击面，对现有侧重文本异常检测的防御策略提出了挑战。

💡 推荐理由: 揭示了 LLM 位置编码可作为新型后门触发器，绕过现有基于文本内容的防御，引发系统提示泄露、恶意工具调用等安全风险，需要安全社区重新评估防御策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Ahmed Mehdi Inane, Vincent Quirion, Gintare Karolina Dzugaite, Ioannis Mitliagkas

本文研究了基于噪声的认证机器学习遗忘问题。现有方法面临一个硬性天花板：为保证遗忘认证所需添加的噪声量通常会严重破坏模型效用，尤其是在大规模删除请求场景下。结合公共数据是差分隐私中缓解这一矛盾的常用技术，但在遗忘领域尚未被充分探索。本文提出非对称朗之万遗忘（ALU）框架，利用公共数据来降低隐私成本。理论证明，注入公共数据能使遗忘成本以 $O(1/n_{\mathrm{pub}}^2)$ 的因子降低，保证了相对于重新训练的计算优势，从而建立了一种新的控制机制：从业者可以通过增加公共数据量来减少高噪声需求及其伴随的效用损失。此外，本文分析了分布不匹配的现实场景，明确刻画了公共与私人源数据之间的分布偏移如何影响效用。实验表明，ALU 能够在模型需要批量遗忘固定比例数据（标准对称方法在此情况下变得不切实际）时保持高效用。基于变分 Rényi 散度与成员推断攻击的实证评估证实，在合理的分布偏移下，ALU 能有效抵御隐私攻击同时保留模型效用。

💡 推荐理由: 为大规模机器学习遗忘提供了一种实用的噪声控制方案，利用公共数据突破效用瓶颈，对隐私法规合规（如GDPR“被遗忘权”）具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Paschal C. Amusuo, Ricardo Calvo, Dharun Anandayuvaraj, Taylor Le Lievre, Kevin Kolyakov, Elijah Jorgensen, Aravind Machiry, James C. Davis

内存安全错误是低级软件中零日漏洞的持续根源，尤其在嵌入式系统中，硬件保护有限且动态分析难以有效应用。内存安全验证可以通过证明不存在此类错误或暴露违规来提供更强保证，但当前验证工作流主要依赖手动操作，需要大量专业知识，限制了实际采用。本文提出 AutoSOUP，一种通过安全导向单元证明实现组件级内存安全验证自动化的系统。作者形式化定义了单元证明，将其编码为包含验证选择（作用域、循环边界和环境模型）的工件，用于验证安全属性，并引入三种自动推导技术。为克服现有自动化方法的局限，进一步提出 LLM-As-Function-Call 混合架构，结合确定性程序合成与大语言模型自动执行这些技术，生成可解释的单元证明。通过评估 AutoSOUP 自动化内存安全验证的能力、在已验证组件中暴露漏洞的效果，并刻画了所得证明的假设和保证。实验表明，AutoSOUP 能有效降低验证专业门槛，提升验证效率，尤其适用于资源受限的嵌入式安全场景。

💡 推荐理由: 针对嵌入式系统内存安全验证的自动化难题，提出结合LLM与程序合成的新范式，有望减少人工投入并加速漏洞发现。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xiangpu Song, Longjia Pei, Jianliang Wu 0002, Yingpei Zeng, Gaoshuo He, Chaoshun Zuo, Xiaofeng Liu 0013, Qingchuan Zhao, Shanqing Guo

该论文提出 ProtocolGuard，一种结合大语言模型（LLM）引导的静态分析与动态验证的方法，用于检测协议实现中的违规行为（protocol non-compliance bugs）。协议实现中的违规错误（如状态机状态错误、消息格式错误、序列错误）可能导致严重的安全漏洞。传统方法依赖手动编写的规则或模型检查，但面对复杂协议扩展性差且误报率高。ProtocolGuard 利用 LLM 从协议规范文档中自动推断出协议的行为模型（如状态机、消息序列规则），然后将该模型转换为静态分析中的约束，并生成用于动态验证的测试用例。具体来说，LLM 首先解析自然语言描述的协议规范，提取关键的状态转换和消息格式约束；然后，静态分析阶段在源代码上检查这些约束是否被违反，并标记可疑位置；最后，动态验证通过构造特定输入触发可疑路径，确认是否存在实际违规。实验在多个真实协议实现（如 TLS 1.3、SSH、QUIC 等）上进行评估，结果表明 ProtocolGuard 能够发现若干已知和未知的违规错误，且误报率低于现有方法。该工作首次将 LLM 用于协议违规检测的完整流程，提升了自动化程度和检测覆盖面。读者无需阅读原文，即可理解该方法的核心思路：借助 LLM 从文本规范中学习协议规则，辅以动静结合分析实现高精度检测。

💡 推荐理由: 协议实现中的违规是常见安全隐患，现有自动检测方法受限。本研究首次将 LLM 的语义理解能力融入全流程，可大幅提升检测效率与覆盖率，为协议安全分析提供新范式。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bikrant Bikram Pratap Maurya, Nitin Choudhury, Daksh Agarwal, Arun Balaji Buduru

该论文针对键盘声学侧信道攻击（ASCA）中存在的数据集规模小、用户/键盘/环境多样性不足等问题，提出了一个全新的多维度数据集HEAR，涵盖53名参与者使用37种笔记本电脑键盘的录音，包括三种采集场景：外接麦克风、设备内置麦克风（无网络噪声）以及基于VoIP的流式传输。基于HEAR，论文建立了ASCA基准测试，评估了传统特征和预训练表征（包括单模态和多模态）。为解决跨键盘泛化问题，作者提出了DECKER框架，通过键盘签名归一化、域对抗解耦、跨键盘对比对齐和声学风格随机化四个阶段学习域不变嵌入，并利用基于LLM的后处理层进行句子级推理以增强识别。实验表明，DECKER在跨键盘和跨用户场景下显著提升了击键识别准确率，语言模型校正进一步带来增益。研究结果证实ASCA在多样化用户、设备和噪声环境中仍具有实际威胁。

💡 推荐理由: 该研究揭示了键盘声学侧信道攻击在现实多设备、多用户场景下的持久有效性，为安全防御者提供了评估风险的新基准和对抗思路，具有重要的安全研究意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#LLM

A Tool for Safe and Accurate IoT Automation Rule Generation Using Large Language Models.

When to Trust the Map: Confidence-Aware LLM Routing for Automotive CVE-to-ATM Mapping

ChainMark: Model-Free LLM Watermarking with Closed-Form Calibration

Detection, Attribution, Narration: An End-to-End Pipeline for Explainable Money Mule Identification

SMETA-ZSL:Semantic Meta-Alignment for Zero-Shot Threat Classification

POPS: Recovering Unlearned Multi-Modality Knowledge in MLLMs with Prompt-Optimized Parameter Shaking

Code-Level Cost Function Generation for Spatial Image Steganography Using RAG-Enhanced Large Language Models

Advanced Topic Modeling Techniques for Categorizing Software Vulnerabilities

Knowledge Over Parameters: Evolving Smart Contract Vulnerability Detection

Breaking the Rounding Trap: Securing LLMs against Quantization-Conditioned Backdoors

Application of LLMs to Threat Assessment of Foreign Peacekeeping Missions

Probabilistic Agents in Deterministic Audits: Evaluating Multi-Agent Systems for Automated Audits Based on the German IT-Grundschutz

Privacy-Preserving Data Deduplication for Enhancing Federated Learning of Language Models.

Detecting Malicious Agent Skills in the Wild using Attention

ARENA: An Architecture for Measuring the Transferability of Autonomous Cyber Defense

Evaluating Open-Source LLMs for Multi-Label ATT&CK Technique Classification on CTI Reports

An AI Security Agent for Banking: Multi-Vector Fraud and AML Detection Across Retail and Corporate Accounts

Bifrost: Hybrid TEE-FHE Inference for Privacy-Preserving Transformer and LLM Serving

Invisible Manipulation Channels in AI-Assisted Financial Advisory: Implications for Market Integrity and Regulatory Design

MGTBench: Benchmarking Machine-Generated Text Detection.

On the Shoulders of Giants: Empowering Automated Smart Contract Auditing via the GiAnt Corpus

FORGE: Multi-Agent Graduated Exploitation and Detection Engineering

S3C2 Summit 2025-07: Government Secure Supply Chain Summit

GEO-Bench: Benchmarking Ranking Manipulation in Generative Engine Optimization

TTPrint: Evidence-Grounded TTP Extraction via Diverge-then-Converge Verification

Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges

Validating Threat Modeling Results with the Help of Vulnerable Test Applications

Automated Repair of TEE Partitioning Issues via DSL-Guided and LLM-Assisted Patching

Parser-Free Querying of Security Logs

A Large Language Model Approach to Generating Bypass Rules for Malware Evasion in Analysis Sandbox

Provable Robustness against Backdoor Attacks via the Primal-Dual Perspective on Differential Privacy

Detecting Voice Cloning Attacks via Timbre Watermarking.

Explainable Machine Learning for Phishing Detection on Heterogeneous Datasets with MCP-Enabled Deployment

MetaBackdoor: Exploiting Positional Encoding as a Backdoor Attack Surface in LLMs

Unlearning with Asymmetric Sources: Improved Unlearning-Utility Trade-off with Public Data

AutoSOUP: Safety-Oriented Unit Proof Generation for Component-level Memory-Safety Verification

ProtocolGuard: Detecting Protocol Non-compliance Bugs via LLM-guided Static Analysis and Dynamic Verification.

DECKER: Domain-invariant Embedding for Cross-Keyboard Extraction and Recognition