丢弃Transformer,全卷积网络也可以实现E2E检测
副问题[/!--empirenews.page--]
在迩来研究职员热衷于试探 Transformer 用于方针检测的实行时,这篇论文提出了一种全新的概念,即操作全卷积收集也可以实现精采的端到端方针检测结果。 方针检测是计较机视觉规模的一个基本研究主题,它操作每张图像的预界说类标签来猜测界线框。大大都主流检测器行使的是基于锚的标签分派和非极大值克制(NMS)等手动计划。迩来,许多研究者提出要领通过间隔感知和基于漫衍的标签分类来消除预界说的锚框集。尽量这些要领取得了明显的盼望和良好的机能,但丢弃手动计划的 NMS 后处理赏罚也许阻碍完全的端到端实习。 基于这些题目,研究职员相继提出了 Learnable NMS、Soft NMS 和 CenterNet 等,它们可以或许晋升一再删除结果,但依然无法提供有用的端到端实习计策。之后,Facebook AI 研究者提出的 DETR 将 Transformer 用到了方针检测使命中,还取得了可以媲美 Faster R-CNN 的结果。可是,DETR 的实习时刻却大大延迟,在小方针上的机能也相对较低。 以是,在本文中,来自旷视科技和西安交通大学的研究者提出了一个新奇题目:全卷积收集是否可以实现精采的端到端方针检测结果?并从标签分派和收集架构两个方面答复并验证了这一题目。 论文链接:https://arxiv.org/pdf/2012.03544.pdf 项目代码:https://github.com/Megvii-BaseDetection/DeFCN (内部代码迁徙 + 检察中,后续放出) 详细而言,研究者基于 FCOS,初次在 dense prediction 上操作全卷积布局做到 E2E,即无 NMS 后处理赏罚。研究者起首说明白常见的 dense prediction 要领(如 RetinaNet、FCOS、ATSS 等),而且以为 one-to-many 的 label assignment 是依靠 NMS 的要害。受到 DETR 的开导,研究者计划了一种 prediction-aware one-to-one assignment 要领。 另外,研究者还提出了 3D Max Filtering 以加强 feature 在 local 地区的表征手段,并提出用 one-to-many auxiliary loss 加快收敛。本文要领根基不修改模子布局,不必要更长的实习时刻,可以基于现有 dense prediction 要领滑腻过渡。本文要领在无 NMS 的环境下,在 COCO 数据集上到达了与有 NMS 的 FCOS 相等的机能;在代表了麋集场景的 CrowdHuman 数据集上,本文要领的 recall 逾越了依靠 NMS 要领的理论上限。 整体要领流程如下图所示: One-to-many vs. one-to-one 自 anchor-free 要领呈现以来,NMS 作为收集中最后一个 heuristic 环节,一向是实现 E2E dense prediction 的最大阻碍。但着实可以发明,从 RPN、SSD、RetinaNet 等开始,各人一向遵循着这样一个流程:先对每个方针天生多个猜测(one-to-many),再将多个猜测去重(many-to-one)。以是,假如差池前一步 label assignment 动刀,就必必要保存去重的环节,即便去重的要领不是 NMS,也会是 NMS 的更换物(如 RelationNet,如 CenterNet 的 max pooling)。 那直接做 one-to-one assignment 的要领是否存在呢?着实是有的。上古期间有一个要领叫 MultiBox,对每个方针和每个猜测做了 bipartite matching,DETR 着实就是将该要领的收集换成了 Transformer。另外尚有一个各人熟知的要领:YOLO,YOLO 也是对每个方针只匹配一个 grid[1] ,只不外它是回收中心点做的匹配,并且有 ignore 地区。 Prediction-aware one-to-one 于是接下来的题目就是,在 dense prediction 上能不能只依靠 one-to-one label assignment,较量美满地去掉 NMS?研究者起首基于去掉 centerness 分支的 FCOS,同一收集布局和实习要领,用 Focal Loss + GIoU Loss,做了如下说明尝试: 研究者计划了两种 hand-crafted one-to-one assignment 要领,别离仿照 RetinaNet(基于 anchor box)和 FCOS(基于 center 点),尽也许做最小窜改,发明已经可以将有无 NMS 的 mAP 差距缩小到 4 个点以内。 但研究者以为手工计划的 label assignment 法则会较大地影响 one-to-one 的机能,例如说 center 法则对付一个偏爱的物体就不足友爱,并且在这种环境下 one-to-one 法则会比 one-to-many 法则的鲁棒性更差。以是以为法则应该是 prediction-aware 的。研究者起首实行了 DETR 的思绪,直接回收 loss 做 bipartite matching 的 cost[2] ,发明无论是绝对机能照旧有无 NMS 的差距,都获得了进一步的改进。 但他们知道,loss 和 metrics 每每并纷歧致,它经常要为优化题目做一些妥协(好比做一些加权等等)。也就是说,loss 并不必然是 bipartite matching 的最佳 cost。因而研究者提出了一个很是简朴的 cost: 看起来轻微有点伟大,但着实就是用收集输出的 prob 代表分类,收集输出和 gt 的 IoU 代表回归,做了加权几许均匀,再加一个相同于 inside gt box 的空间先验。加权几许均匀和空间先验在后头都别离做了 ablation。 这就是研究者提出的 POTO 计策,它进一步地晋升了无 NMS 下的机能,也侧面验证了 loss 并不必然是最好的 cost[3]。但从 Table 1 中也发明白,POTO 的机能仍旧不能对抗 one-to-many+NMS 组合。研究者以为题目出在两个方面: one-to-one 必要收集输出的 feature 很是 sharp,这对 CNN 提出了较严苛的要求(这也是 Transformer 的上风); one-to-many 带来了更强的监视和更快的收敛速率。 于是别离用 3D Max Filtering 和 one-to-many auxiliary loss 缓解如上题目。 3D Max Filtering 如 Figure 3 所示,这个模块只回收了卷积、插值、max pooling 3d,速率很是快,也不必要写 cuda kernel。 One-to-many auxiliary loss (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |