#cs.CL 主题 - Cyber Security Daily Radar

👥 作者: Yuan Xin, Yixuan Weng, Minjun Zhu, Ying Ling, Chengwei Qin, Michael Hahn, Michael Backes, Yue Zhang, Linyi Yang

随着大语言模型（LLMs）在学术同行评审中的广泛应用，其面临一种新型安全威胁：对手可通过在提交稿件中嵌入对抗性隐藏提示（Adversarial Hidden Prompts）来操纵评审结果，严重威胁学术诚信。为应对这一挑战，本文提出名为SafeReview的防御框架。该框架创新性地构建了一个对抗训练系统，包含两个核心模型：生成器（Generator）和防御者（Defender）。生成器负责生成复杂且不断进化的攻击提示，而防御者则负责检测这些攻击。两个模型通过一种受信息检索生成对抗网络（IRGAN）启发的损失函数进行联合优化，形成动态共同进化机制——攻击策略越强，防御能力也随之提升。实验表明，与静态防御方法相比，SafeReview在面对新型和不断演变的攻击时展现出显著增强的韧性。该工作为保护基于LLM的评审系统的完整性奠定了关键基础。论文主要贡献包括：1）揭示LLM评审系统面临的对抗性提示攻击风险；2）提出生成器-防御者协同进化框架，实现动态防御；3）验证该方法对未知攻击的泛化能力。适合关注LLM安全、AI系统鲁棒性及学术评审诚信的研究人员和工程师阅读。

💡 推荐理由: LLM已开始用于学术评审，对抗性隐藏提示可直接操纵评审结果，破坏学术公正。SafeReview提供了首个专门针对该场景的动态防御机制，对维护科研评价体系的可信度具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Aaron Chan, Tengfei Li, Tianyi Xiao, Angela Chen, Junyi Du, Xiang Ren

本论文提出了LATTICE，一个用于评估加密货币代理（crypto agent）在真实用户场景中决策支持效用的基准测试。现有的加密货币代理基准主要关注基于推理或结果的评估，但未能评估代理辅助用户决策的能力。LATTICE填补了这一空白，通过以下三个方面实现：(1) 定义了六个评估维度，涵盖关键的决策支持属性；(2) 提出了16种任务类型，覆盖端到端的加密副驾驶（crypto copilot）工作流；(3) 使用LLM裁判（LLM judges）根据这些维度和任务自动评分代理输出。关键创新在于，维度和任务设计为可大规模评估，无需依赖专家标注的真实数据或外部数据源，LLM裁判的评分规则可以持续审计和更新。与其他通常比较使用通用代理框架的基础模型的基准不同，LATTICE用于评估实际加密副驾驶产品中的生产级代理，反映了编排和UI/UX设计在决定代理质量中的重要性。论文中，作者评估了六个真实世界的加密副驾驶，涉及1200个多样化查询，并报告了跨维度、任务和查询类别的详细结果。实验表明，大多数测试的副驾驶在总得分上相当，但在维度和任务层面的表现差异显著，这表明决策支持质量存在有意义的权衡：具有不同优先级的用户可能更适合不同的副驾驶，而不仅仅是总排名。为支持可重复研究，论文开源了所有LATTICE代码和数据。

💡 推荐理由: 该基准为评估LLM驱动的加密货币代理的决策支持能力提供了系统方法，有助于安全专家理解代理在实际用户场景中的可靠性和局限性，避免因代理建议失误导致资产损失。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Alex Bogdan, Adrian de Valois-Franklin

本文报告了前沿大语言模型（LLM）输出中一个惊人的统计规律性，使得仅依赖CPU的评分基元（scoring primitive）能以每个token 2.6微秒的速度运行，估计延迟比现有的基于采样的检测器低五个数量级（10万倍）。研究跨越了来自五家独立厂商的六个当代模型、两种生成规模以及五个保留域。发现token的秩-频率分布收敛到同一个两参数的Mandelbrot排名分布，36个模型-域拟合中有34个R²超过0.94，35个在AIC准则下优于Zipf分布。尽管共享同一分布族，但模型并未因此变成统计上的重复：拟合的Mandelbrot参数在不同模型之间保持清晰可分离——跨模型的q值范围（1.63至3.69）远超每个模型的自举标准差（0.03至0.10），相差一个数量级以上，因此仅凭数千个输出token即可获得数十个标准差的区分度。由此产生两个能力：第一，统计模型指纹识别——可以测试来自供应商的LLM文本是否与声称的模型家族一致，无需加密水印或访问模型内部，支持来源验证和静默替换审计；第二，一个模型无关的参考分布用于黑盒输出评估，从中推导出单遍评分基元，该基元在可获取模型对数概率时与之组合，在仅能使用秩的模式下退化为可用于封闭API的版本。在FRANK、TruthfulQA和HaluEval上的初步结果展示了该基元在哪些场景有帮助（词汇异常、不支持实体）以及哪些场景结构性无法处理（使用领域适当词汇的推理错误）。本文将基元定位为复合评估栈中的首遍分诊层，而非基于采样或源条件验证器的替代品。

💡 推荐理由: 该研究提供了一种极低延迟、无需访问模型内部或水印的LLM输出验证方法，可用于实时检测日志中的文本是否来自声称的模型，以及识别异常输出，对安全运维中的输出监控和溯源有重要价值。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yuanfan Li, Qi Zhou, Chengzhengxu Li, Zhaohan Zhang, Chenxu Zhao, Zepu Ruan, Chao Shen, Xiaoming Liu

本文介绍了一个名为 MGTEVAL 的可扩展平台，用于系统评估机器生成文本（MGT）检测器。尽管 MGT 检测领域取得了快速进展，但现有的评估工作往往因数据集、预处理方法、攻击方式和评估指标的碎片化，导致结果难以比较和复现。MGTEVAL 将评估流程组织为四个核心组件：数据集构建、数据集攻击、检测器训练和性能评估。该平台支持通过可配置的大语言模型（LLM）生成 MGT 来构建自定义基准测试，对测试集应用 12 种文本攻击，通过统一接口训练检测器，并报告检测器的有效性、鲁棒性和效率。平台提供命令行和 Web 两种交互界面，用户无需修改代码即可进行便捷的实验。论文的主要贡献在于提供了一个标准化、模块化的评估框架，有助于推动 MGT 检测领域的可复现研究和公平比较。适合从事生成文本检测、对抗样本分析以及 LLM 安全评估的研究人员和工程师阅读。

💡 推荐理由: 提供了标准化的 MGT 检测评估平台，有助于解决当前评估碎片化问题，促进检测器的公平比较和复现，对提升生成文本检测的可靠性和鲁棒性具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nay Myat Min, Long H. Pham, Jun Sun

大型语言模型在运行时可能表现出各种异常行为，例如训练时注入的后门在触发词下被激活、越狱攻击绕过安全对齐、提示注入覆盖部署者指令。现有的运行时防御通常针对单一威胁，且依赖干净参考模型、触发知识或可编辑权重，这些假设对不透明的第三方模型往往不成立。本文提出层间收敛指纹（Layerwise Convergence Fingerprinting, LCF），一种无需调优的运行时监控方法。LCF将模型的层间隐藏状态轨迹视为健康信号：对每一层间的差异计算对角马氏距离，通过Ledoit-Wolf收缩聚合，并在200个干净样本上使用留一法校准阈值，无需参考模型、触发知识或重新训练。在四个架构（Llama-3-8B、Qwen2.5-7B、Gemma-2-9B、Qwen2.5-14B）上针对后门、越狱和提示注入三类威胁进行评估（56种后门组合、3种越狱技术、BIPIA邮件和代码问答任务），LCF将Qwen2.5-7B和Gemma-2的平均后门攻击成功率降至1%以下，Qwen2.5-14B降至1.3%；检测92-100%的DAN越狱（GCG和角色扮演为62-100%）；在所有（模型、领域）的8个单元格中100%标记文本载荷注入；后门误报率12-16%，推理开销小于0.1%。单个聚合分数即可覆盖全部三类威胁，无需针对具体威胁进行调整，使LCF成为云服务和设备端LLM的通用运行时安全层。

💡 推荐理由: 提供一种无需修改模型、轻量级的运行时异常检测方法，可同时防御后门、越狱和提示注入，适合保护部署在黑盒或第三方LLM中的应用。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zihan Liu, Yizhen Wang, Rui Wang, Xiu Tang, Sai Wu

大型语言模型（LLM）的微调能够使其适应特定应用，但高昂的计算成本使得资源受限的组织难以独立完成。云平台可以提供所需资源，但数据隐私问题使得将敏感信息共享给第三方存在风险。分割学习（Split Learning）作为一种有前景的解决方案，将模型划分为客户端和服务器两部分，通过交换中间数据实现协作且安全的训练，从而使资源受限的参与者能够安全地适配LLM。近年来，涌现了大量研究来推进这一范式，提出了多种模型方法、系统优化以及隐私防御-攻击技术。为了理清该领域的发展脉络，本文首次全面综述了针对LLM微调的分割学习。我们提出了一种统一的细粒度训练流水线来定位关键操作组件，并从三个核心维度：模型级优化、系统级效率和隐私保护，对现有工作进行系统回顾。通过这一结构化分类，我们为推进可扩展、鲁棒且安全的协作式LLM适配奠定了基础。本文适合对LLM微调、隐私保护分布式学习感兴趣的研究人员和工程师阅读。

💡 推荐理由: 分割学习允许资源受限的参与者安全地微调LLM，解决了云上微调的数据隐私痛点，是连接低成本与隐私保护的关键技术。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hikmat Karimov, Rahid Zahid Alekberli

This study introduces the Kerimov-Alekberli model, a novel information-geometric framework that redefines AI safety by formally linking non-equilibrium thermodynamics to stochastic control for the ethical alignment of autonomous systems. By establishing a formal isomorphism between non-equilibrium thermodynamics and stochastic control, we define systemic anomalies as deviations from a Riemannian m

💡 推荐理由: 原文内容（由于配额限制，未进行深度 LLM 分析）

🎯 建议动作: 建议根据原文自行评估

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Xinhe Wang, Katia Sycara, Yaqi Xie

Large (vision-)language models exhibit remarkable capability but remain highly susceptible to jailbreaking. Existing safety training approaches aim to have the model learn a refusal boundary between safe and unsafe, based on the user's intent. It has been found that this binary training regime often leads to brittleness, since the user intent cannot reliably be evaluated, especially if the attacke

💡 推荐理由: 原文内容（由于配额限制，未进行深度 LLM 分析）

🎯 建议动作: 建议根据原文自行评估

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Hikmat Karimov, Rahid Zahid Alekberli

As large language models (LLMs) are increasingly deployed in high-stakes and operational settings, evaluation strategies based solely on aggregate accuracy are often insucient to characterize system reliability. This study proposes a thermodynamic inspired modeling framework for analyzing the stability of LLM outputs under conditions of uncertainty and perturbation. The framework introduces a comp

💡 推荐理由: 原文内容（由于配额限制，未进行深度 LLM 分析）

🎯 建议动作: 建议根据原文自行评估

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

提出SSG方法，通过对数几率平衡的词汇分区提升LLM水印在低熵场景（代码生成、数学推理）下的检测能力。

💡 推荐理由: LLM水印是内容溯源的关键技术，但现有KGW方案在低熵场景下效果差。SSG改进了这一局限，对AI生成内容的版权保护与安全审计具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

提出行为金丝雀审计机制，通过在偏好数据中注入触发器-奖励信号，检测RL微调是否使用了受保护检索数据。

💡 推荐理由: LLM在代理工作流中常处理受法律保护的数据，现有审计方法对RL训练无效；该方法为合规审计提供了新工具，尤其适用于数据使用条款验证。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#cs.CL

SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

LATTICE: Evaluating Decision Support Utility of Crypto Agents

The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive

MGTEVAL: An Interactive Platform for Systemtic Evaluation of Machine-Generated Text Detectors

Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models

A Survey on Split Learning for LLM Fine-Tuning: Models, Systems, and Privacy Optimizations

The Kerimov-Alekberli Model: An Information-Geometric Framework for Real-Time System Stability

Jailbreaking Frontier Foundation Models Through Intention Deception

An Information-Geometric Framework for Stability Analysis of Large Language Models under Entropic Stress

SSG: Logit-Balanced Vocabulary Partitioning for LLM Watermarking

Behavioral Canaries: Auditing Private Retrieved Context Usage in RL Fine-Tuning