#keystroke-reconstruction 主题 - Cyber Security Daily Radar

👥 作者: Mohammadreza Rashidi

本文评估了一种基于肩窥视频（over-the-shoulder footage）的多模态触摸检测框架，该框架旨在从物理手指交互中重建移动键盘上的击键事件，无需直接屏幕录制。研究背景是视频智能监控（VIDINT）可能被用于监控人机交互模式。系统集成四种并行检测模态：MediaPipe手部地标点、HSV肤色过滤、帧差运动检测以及基于形状的Canny边缘分析。通过将相对触摸坐标映射到参考屏幕布局来重建输入序列。在120帧的第一人称密码输入演示视频上评估，MediaPipe和肤色检测因部分手部遮挡和环境噪声无法自主运行；仅运动和仅边缘配置的F1分数分别为18.5%和18.2%；多模态组合的F1分数为16.7%，映射到iOS密码布局的序列相似度为3.0%。进行了消融、分辨率衰减、噪声敏感性和接近阈值调优以表征系统操作范围。进一步在5段真实公共授权的第三人称手机视频上审计泛化能力，发现检测器每帧中位数产生57个触摸点（峰值205），比实际点击率高一到三个数量级，因为肤色过滤器响应整个手部而非指尖接触。受控场景的结果在非受控视频中失效，系统无法在标定环境外实现可靠的击键重建。

💡 推荐理由: 该研究揭示了通过肩窥视频重建触摸输入的可行性与显著局限性，提醒安全从业者注意此类物理攻击向量的潜在风险及当前技术瓶颈，对物理安全监控和用户隐私保护具有启示意义。

🎯 建议动作: 研究跟进，了解其局限性及对物理安全监控的启示

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

#keystroke-reconstruction

Empirical Evaluation of Multi-Modal Touch Detection in Over-the-Shoulder Video Surveillance