返回列表 发布新帖
查看: 109|回复: 1

寻找视觉处理大佬,多目标 mask 跟踪, SAM2, CoTracker3 / TAPIR (点跟踪)等

burylove发表于 7 天前 来自手机版 | 查看全部 |阅读模式
自己在做一个牌类游戏过程的视觉跟踪学习项目, 想把麻将一次完整洗牌前 40 张牌的位置追踪到洗牌结束, 输出"洗牌前 → 洗牌后"的位置对应表. 类似学术里 shell game / cups-and-balls tracking 的视觉问题, 目标数 = 40 , 纯学习 + 探索 SOTA 边界, 已经啃了一遍 YOLO/ByteTrack/SAM2 文献, 但实操遇到瓶颈, 想请教各位.

┌──── 输入: 单视角 RGB 1080p@25fps ────┐
│                                      │
│  pre 段 (静止)                       │
│  ● ● ● ● ● ● ● ● ● ●   ← 40 张牌    │
│  ● ● ● ● ● ● ● ● ● ●    (位置/身份  │
│  ● ● ● ● ● ● ● ● ● ●     都已知)    │
│  ● ● ● ● ● ● ● ● ● ●                │
│                                      │
│           ↓ 洗牌 60-120s             │
│   ░ ▓ ░ 手覆盖 60-80% 帧 ░ ▓ ░       │
│   牌频繁互相遮挡 + 翻面 + 滑动       │
│           ↓                          │
│                                      │
│  post 段 (静止)                      │
│  ? ? ? ? ? ? ? ? ? ?   ← 40 张牌    │
│  ? ? ? ? ? ? ? ? ? ?    (位置已知,  │
│  ? ? ? ? ? ? ? ? ? ?     求映射回   │
│  ? ? ? ? ? ? ? ? ? ?     pre 身份)  │
│                                      │
└──────────────────────────────────────┘

难点 (按破坏性排序)
40 个目标外观高度相似 — 没有 re-ID 特征, 背面同色; 不像行人有衣服, 车辆有车牌
持续密集遮挡 — 一只/两只手覆盖 60-80% 帧, 单牌完全遮挡可持续 1-3 秒
频繁翻面 + 旋转 — 外观跳变, 视觉特征短时不稳
严格目标数上限 = 40 — 不能新增 (新 ID 一定是 ByteTrack 错了)
信息论根本极限 — 完全被手压住时, 单视角 RGB 没有该牌的任何线索
已试方案 + 失败模式
管线                            状态   失败原因
────────────────────────────────────────────────────────────
YOLO11-Seg 检测                 ✓部分   静态准, 密集遮挡漏检
  ↓
ByteTrack 短时关联              ✗ 60s 累积 1942 ID (理应 40)
                                    卡尔曼+IoU 假设被遮挡彻底破坏
  ↓
匈牙利 + lost-recovery 跨段     ✗ 中段 cost matrix 信号退化为噪声
                                    强制 ID 上限 40 也救不回
  ↓
关键帧聚类 (pre/post 各自)      ✓ 静止聚类可以精确出 40 位置
  ↓
跨段匹配 (pre 40 ↔ post 40)    ✗ 中段无信号, 等价随机映射
  ↓
人工逐帧 fallback (PySide6)     ✓ 但 ~60 min/副, 成本不可接受
ByteTrack ID 累积大致这样:

理想:   ──────────── 40 (上限)
实际:   ▁▂▃▄▅▆▇▇████████████ 1942
        0s       30s       60s
        ↑ 每次遮挡断开就开一个新 ID

        前在考虑的 SOTA 路线
SAM 2 video predictor (Meta 2024) — 用 pre 40 位置作为 40 个 box prompt, 整段自动跟 mask
Cutie / DAM / MASA — 长 memory VOS 网络, 学术上比 SAM2 更稳
CoTracker3 / TAPIR 点跟踪 — 牌中心点跟踪, 不跟 mask
手部物理推断 — HaMeR 估 3D 手势 + 接触推断, 覆盖完全遮挡段
ProPainter 擦除手 — 让 SAM 2 在更多帧"看见目标"
半自动 interactive annotation — 算法跟 60-80%, 人工巡视修正 20-40%, 目标压到 10-15 min/副
想请教的问题
做过类似的人: surgical instrument tracking, sports player tracking (足球/篮球队员同队服), shell game CV 的同行, 你们最后落在哪个技术栈?
SAM 2 实战表现: 在"40 个相似目标 + 密集遮挡"这种 regime, memory bank 会不会失效? 有没有人压测过 50+ 目标的并行?
VOS 模型选型: Cutie / DAM / MASA 这几个在长视频 + 多目标的实际差异?
半自动工具栈: CVAT / Roboflow 之外, 有没有更专门的"算法跟踪 + 人工修正"工具? (现在自己撸了一个 PySide6 的, 但比较粗糙)
有没有更适合的 SOTA 我完全没想到 (比如基于 3D scene flow / event camera / NeRF tracking 的思路)?
非常希望听到一线的实践经验, 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.
回复

使用道具 举报

Zuri发表于 6 天前 来自手机版 | 查看全部
先不说研究意义大不大,单是多张牌被遮挡后,后续跟踪只能完全靠猜。
回复

使用道具 举报

懒得打字嘛,点击右侧快捷回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表