寻找视觉处理大佬，多目标 mask 跟踪， SAM2， CoTracker3 / TAPIR (点跟踪)等

burylove · 发表于 7 天前

自己在做一个牌类游戏过程的视觉跟踪学习项目, 想把麻将一次完整洗牌前 40 张牌的位置追踪到洗牌结束, 输出"洗牌前 → 洗牌后"的位置对应表. 类似学术里 shell game / cups-and-balls tracking 的视觉问题, 目标数 = 40 , 纯学习 + 探索 SOTA 边界, 已经啃了一遍 YOLO/ByteTrack/SAM2 文献, 但实操遇到瓶颈, 想请教各位.

┌──── 输入: 单视角 RGB 1080p@25fps ────┐
│                                     │
│  pre 段 (静止)                      │
│  ● ● ● ● ● ● ● ● ● ● ← 40 张牌 │
│  ● ● ● ● ● ● ● ● ● ● (位置/身份  │
│  ● ● ● ● ● ● ● ● ● ●    都已知) │
│  ● ● ● ● ● ● ● ● ● ●             │
│                                     │
│          ↓ 洗牌 60-120s          │
│ ░ ▓ ░ 手覆盖 60-80% 帧 ░ ▓ ░    │
│ 牌频繁互相遮挡 + 翻面 + 滑动    │
│          ↓                         │
│                                     │
│  post 段 (静止)                   │
│  ? ? ? ? ? ? ? ? ? ? ← 40 张牌 │
│  ? ? ? ? ? ? ? ? ? ? (位置已知,  │
│  ? ? ? ? ? ? ? ? ? ?    求映射回 │
│  ? ? ? ? ? ? ? ? ? ?    pre 身份)  │
│                                     │
└──────────────────────────────────────┘

难点 (按破坏性排序)
40 个目标外观高度相似 — 没有 re-ID 特征, 背面同色; 不像行人有衣服, 车辆有车牌
持续密集遮挡 — 一只/两只手覆盖 60-80% 帧, 单牌完全遮挡可持续 1-3 秒
频繁翻面 + 旋转 — 外观跳变, 视觉特征短时不稳
严格目标数上限 = 40 — 不能新增 (新 ID 一定是 ByteTrack 错了)
信息论根本极限 — 完全被手压住时, 单视角 RGB 没有该牌的任何线索
已试方案 + 失败模式
管线                         状态失败原因
────────────────────────────────────────────────────────────
YOLO11-Seg 检测                ✓部分静态准, 密集遮挡漏检
  ↓
ByteTrack 短时关联             ✗ 60s 累积 1942 ID (理应 40)
                                 卡尔曼+IoU 假设被遮挡彻底破坏
  ↓
匈牙利 + lost-recovery 跨段    ✗ 中段 cost matrix 信号退化为噪声
                                 强制 ID 上限 40 也救不回
  ↓
关键帧聚类 (pre/post 各自)    ✓ 静止聚类可以精确出 40 位置
  ↓
跨段匹配 (pre 40 ↔ post 40) ✗ 中段无信号, 等价随机映射
  ↓
人工逐帧 fallback (PySide6)    ✓ 但 ~60 min/副, 成本不可接受
ByteTrack ID 累积大致这样:

理想: ──────────── 40 (上限)
实际: ▁▂▃▄▅▆▇▇████████████ 1942
      0s    30s    60s
      ↑ 每次遮挡断开就开一个新 ID

      前在考虑的 SOTA 路线
SAM 2 video predictor (Meta 2024) — 用 pre 40 位置作为 40 个 box prompt, 整段自动跟 mask
Cutie / DAM / MASA — 长 memory VOS 网络, 学术上比 SAM2 更稳
CoTracker3 / TAPIR 点跟踪 — 牌中心点跟踪, 不跟 mask
手部物理推断 — HaMeR 估 3D 手势 + 接触推断, 覆盖完全遮挡段
ProPainter 擦除手 — 让 SAM 2 在更多帧"看见目标"
半自动 interactive annotation — 算法跟 60-80%, 人工巡视修正 20-40%, 目标压到 10-15 min/副
想请教的问题
做过类似的人: surgical instrument tracking, sports player tracking (足球/篮球队员同队服), shell game CV 的同行, 你们最后落在哪个技术栈?
SAM 2 实战表现: 在"40 个相似目标 + 密集遮挡"这种 regime, memory bank 会不会失效? 有没有人压测过 50+ 目标的并行?
VOS 模型选型: Cutie / DAM / MASA 这几个在长视频 + 多目标的实际差异?
半自动工具栈: CVAT / Roboflow 之外, 有没有更专门的"算法跟踪 + 人工修正"工具? (现在自己撸了一个 PySide6 的, 但比较粗糙)
有没有更适合的 SOTA 我完全没想到 (比如基于 3D scene flow / event camera / NeRF tracking 的思路)?
非常希望听到一线的实践经验, 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

Zuri · 发表于 6 天前

先不说研究意义大不大，单是多张牌被遮挡后，后续跟踪只能完全靠猜。

寻找视觉处理大佬，多目标 mask 跟踪， SAM2， CoTracker3 / TAPIR (点跟踪)等

浏览过的版块

疑似灌水内容未提交