#unix-competence

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Geoffrey Bradway, Roger Creus Castanyer, Lorenz Wolf, Maxwill Lin, Matthew James Sargent, Augustine N. Mavor-Parker

本文提出 unix-ctf,一个面向 shell 智能体的 CTF 任务生成器,旨在专门训练和评估 Unix 能力(即使用 shell 和操作系统原语作为一等工具的能力),以解决现有终端基准(如 Terminal-Bench 2.0)中智能体过度依赖通用编程语言(如 Python)而忽视 Unix 特性的问题。每个任务在一个干净的 Linux 容器中基于单一 Unix 特性隐藏一个短令牌(形如 flag(a3b1c9...)),智能体必须通过 shell 命令恢复它。任务生成采用 LLM 辅助的合成管道:LLM 提出隐藏技术,并将其转换为参数化的隐藏-查找脚本对,通过双向合约过滤——隐藏脚本不得在磁盘上留下 flag 明文痕迹,查找脚本必须能在新目录中恢复 flag。由于 LLM 仅负责种植和恢复步骤,而容器布局、评分框架固定,该管道在 750 次原始尝试中成功生成 656 个可移植变体(成功率 87.5%),而对照的端到端容器生成方法仅成功 17.4%。656 个变体经规范化后得到 155 种不同的隐藏技术。使用 GRPO 对 Qwen3-8B 进行 LoRA 微调,基于该表面训练的模型在 15 技能多族保留集(n=225)上将求解率从 11.6% 提升至 43.6%,在 InterCode-CTF 上达到 32/100,其中取证技能提升 33 个百分点。结果表明 Unix 能力是可分离、可训练的,并且最好直接评估而非混入编程能力。

💡 推荐理由: 该研究为评估和增强 LLM agent 的 Unix 操作技能提供了可复现基准与训练方法。安全从业者可利用该基准测试 agent 在真实环境中的命令执行能力,或将其作为自动渗透测试与系统管理任务的基础训练平台。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)