#information-theoretic

共收录 2 条相关安全情报。

👥 作者: Yiwei Zhang, Jeremiah Birrell, Reza Ebrahimi, Rouzbeh Behnia, Jason Pacheco, Elisa Bertino

本文提出一种基于信息论的对抗训练框架WARDEN，用于提升大型语言模型（LLM）对提示注入等对抗攻击的鲁棒性。当前LLM虽经过对齐与安全训练，仍易受新型攻击策略诱导产生有害行为。现有对抗训练方法计算成本高、难以扩展。最近出现的连续对抗训练方法（如CAT、CAPO）通过在嵌入空间利用梯度扰动生成更高效且表达力强的攻击样本。WARDEN在此基础上引入分布鲁棒优化思想，使用f-散度（特别是KL散度）构建一个围绕经验训练分布的模糊集，动态重新加权对抗样本，优化该模糊集内的最坏情况对抗损失。通过凸对偶转化，目标函数简化为对数-求和-指数（log-sum-exp）形式，并包含一个动态参数控制重加权强度。实验在多个LLM和多种攻击设置下进行，结果表明WARDEN在保持模型效用（如生成流畅性、准确性）的同时，显著降低攻击成功率，且计算与效用成本与CAT、CAPO、MixAT等基线方法相当，使其成为可扩展的鲁棒对齐实用方案。该方法特别适用于需要高安全性的LLM部署场景，如聊天机器人、内容生成等。

💡 推荐理由: 该工作针对LLM对抗鲁棒性的核心挑战，提出一种计算高效且通用的训练方法，可直接降低恶意提示引发的安全风险，对安全工程师与研究者有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hassan Khodaiemehr, Khadijeh Bagheri, Chen Feng, Dariia Porechna

本文提出 SILMARILS，一种基于信息论和量子安全的设计者验证签名方案，构建于有限域 F_p 上的最小代数核心，使用真随机性和完美 2-out-of-2 Shamir 秘密共享。方案支持两方和三方模式。两方模式下，实现可转移设计者验证签名（TDV）：指定验证者能够模拟出与真实签名不可区分的接受副本，满足 Jakobsson-Sako-Impagliazzo DV 安全；验证者可发布收据 r 用于公开验证，但即使有 r，外部方也无法区分签名或模拟。针对非指定验证者，在随机预言模型和量子随机预言模型中证明了 EUF-CMA^¬DV 安全性。三方模式下，采用 Fitzi 等人的广播模型，获得基于模拟安全的统计安全签名协议，错误率 1/p。安全性在纯信息论模型、IT+ROM 和量子随机预言模型下分析，并将 Fitzi 框架扩展到具有经典 I/O 的量子敌手。方案实现了正确性、保密性、可转移性和不可伪造性，且与基于模拟的安全等价。由于代数结构简单，SILMARILS 的密钥和签名尺寸显著小于 Dilithium、Falcon、SPHINCS+ 等标准化后量子方案，同时在后量子环境下提供 TDV 安全，特别适合区块链应用。

💡 推荐理由: 首次在信息论和量子安全框架下实现可转移设计者验证签名，密钥和签名尺寸远小于现有后量子标准，对区块链等需要高效签名且支持模拟的认证场景具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#information-theoretic

Information Theoretic Adversarial Training of Large Language Models

SILMARILS: Information-Theoretic and Quantum-Secure Designated-Verifier Signatures