#code-llm 主题 - Cyber Security Daily Radar

👥 作者: Po-Han Cheng, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

该论文提出 CodeSentinel，一种针对代码大语言模型（Code LLM）中间接提示注入攻击的三层推理时防御系统。研究背景：代码大语言模型在编程辅助中常从外部仓库、文档、问题线程和编码智能体环境检索代码上下文，攻击者可利用此过程在注释、字符串、标识符或诱饵代码中隐藏恶意指令，实现间接提示注入。核心问题：现有防御方法如输入过滤、输出检测或整体提示净化，难以同时兼顾准确性和低开销。方法：CodeSentinel 通过三层架构进行实时净化。第一层利用 Tree-sitter 解析代码的 Concret e Syntax Tree (CST)，提取高风险节点（如字符串、注释等可能携带注入的节点）。第二层包括语法引导预过滤（移除明显无关节点）和 CST 引导动态 Min-K% 评分（利用语言模型对节点的困惑度差异识别异常）。第三层进行节点扰动分析，通过轻微修改节点并观察模型输出变化来确认攻击触发器。检测到的恶意节点被移除或中和后，再将纯净代码送入下游 Code LLM。实验：在六个最新攻击家族（包括对抗性和自然语言样式）上评估，CodeSentinel 实现平均节点级 F1 得分为 0.80，显著优于现有工具 CodeGarrison、DePA 和 KillBadCode。主要贡献：首次针对代码上下文的间接提示注入提出结构化防御，集成多种检测技术，具备高准确率和较低计算开销。适合读者：安全研究人员、开发安全工程师、LLM 应用开发者。

💡 推荐理由: 代码大语言模型在编程场景中广泛应用，间接提示注入可导致模型执行恶意代码或泄露敏感信息。CodeSentinel 提供了一种实用的实时防御方案，能有效净化代码上下文，降低攻击风险，对保障基于LLM的编码助手的供应链安全具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jianwei Tai

本文研究代码大语言模型（Code LLM）在提示词扰动下的安全性与功能性之间的信息论权衡。作者将代码补全任务建模为从自然语言提示到代码输出的映射过程，提出了容量（Cap）和安全性（Sec）两个信息论量：Cap衡量生成代码与理想正确代码之间的互信息，即模型的功能容量；Sec衡量扰动提示下生成代码与原始提示下生成代码之间的互信息，即扰动保留量。文中证明了Cap + Sec ≤ H(c^*) + I(p; ̃p)的理论上界，其中H(c^*)是任务熵，I(p; ̃p)是提示扰动引入的泄漏。通过确定性嵌入推论得到了隐藏状态版本，并利用tokenizer/gzip边界给出了模型无关的任务熵上限。实验部分，作者在两个模型（CodeLlama和Qwen）、两个数据集（HumanEval和MBPP）、两种精度（INT4/BF16）以及多种估计器消融下，验证了嵌入检查不等式成立，饱和度为0.27-0.92，定理松弛为2.36-26.94 nats。此外，提出了上下文混合余弦相似度作为生成-提示对齐信号，与pass@1具有显著相关性（如CodeLlama-HumanEval中ρ=0.36, p<0.0001）。自适应压力测试（包括23种扰动池、固定通用后缀和提示嵌入PGD）均留下正松弛，表明当前模型远未达到理论安全预算上限。本文为评估和提升代码LLM对提示扰动的鲁棒性提供了理论框架。

💡 推荐理由: 该研究从信息论角度量化了代码LLM在功能与安全性之间的根本权衡，为理解提示注入等攻击提供了理论基础，并给出了模型无关的安全预算上限，有助于设计更鲁棒的代码生成系统。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

提出 FunPoison，一种功能保持的数据投毒方法，通过注入可编译的弱使用片段，保护代码数据集免遭未授权使用。

💡 推荐理由: 针对 CodeLLM 训练数据的防护新思路，仅污染10%数据即可有效降低模型训练收益，且不影响代码可编译性与语义正确性。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#code-llm

CodeSentinel: A Three-Layer Defense Against Indirect Prompt Injection in Code Contexts

The Security Budget of Code LLMs: An Information-Theoretic Capacity-Security Bound

Train in Vain: Functionality-Preserving Poisoning to Prevent Unauthorized Use of Code Datasets