#unix-competence 主题 - Cyber Security Daily Radar

👥 作者: Geoffrey Bradway, Roger Creus Castanyer, Lorenz Wolf, Maxwill Lin, Matthew James Sargent, Augustine N. Mavor-Parker

本文提出 unix-ctf，一个面向 shell 智能体的 CTF 任务生成器，旨在专门训练和评估 Unix 能力（即使用 shell 和操作系统原语作为一等工具的能力），以解决现有终端基准（如 Terminal-Bench 2.0）中智能体过度依赖通用编程语言（如 Python）而忽视 Unix 特性的问题。每个任务在一个干净的 Linux 容器中基于单一 Unix 特性隐藏一个短令牌（形如 flag(a3b1c9...)），智能体必须通过 shell 命令恢复它。任务生成采用 LLM 辅助的合成管道：LLM 提出隐藏技术，并将其转换为参数化的隐藏-查找脚本对，通过双向合约过滤——隐藏脚本不得在磁盘上留下 flag 明文痕迹，查找脚本必须能在新目录中恢复 flag。由于 LLM 仅负责种植和恢复步骤，而容器布局、评分框架固定，该管道在 750 次原始尝试中成功生成 656 个可移植变体（成功率 87.5%），而对照的端到端容器生成方法仅成功 17.4%。656 个变体经规范化后得到 155 种不同的隐藏技术。使用 GRPO 对 Qwen3-8B 进行 LoRA 微调，基于该表面训练的模型在 15 技能多族保留集（n=225）上将求解率从 11.6% 提升至 43.6%，在 InterCode-CTF 上达到 32/100，其中取证技能提升 33 个百分点。结果表明 Unix 能力是可分离、可训练的，并且最好直接评估而非混入编程能力。

💡 推荐理由: 该研究为评估和增强 LLM agent 的 Unix 操作技能提供了可复现基准与训练方法。安全从业者可利用该基准测试 agent 在真实环境中的命令执行能力，或将其作为自动渗透测试与系统管理任务的基础训练平台。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#unix-competence

unix-ctf: Procedural Environments for Unix-Competence Reinforcement Learning