cv中应用transformer

date
Nov 26, 2021
slug
cv
status
Published
tags
学习
summary
整理了一些目标检测方面用了transformer的论文
type
Post
End-to-End Object Detection with Transformers:
notion image
 
UP-DETR: Unsupervised Pre-training for Object Detection with Transformers:
notion image
UP-DETR包括pre-training和fine- tuning 两个步骤,首先在大尺度数据集上无监督的训练transformer,然后和DETR一样在带标注的数据集上微调整个模型。
 
TrackFormer: Multi-Object Tracking with Transformers:
notion image
多目标跟踪 (MOT) 的挑战性任务需要同时推理轨道初始化、身份和时空轨迹。我们将此任务制定为帧到帧集预测问题,并引入了 TrackFormer,这是一种基于编码器-解码器 Transformer 架构的端到端 MOT 方法。我们的模型通过视频序列演化出一组轨迹预测,从而通过注意力实现帧之间的数据关联。
 
Transformer Fusion: Monocular RGB Scene Reconstruction using Transformers:
notion image
从输入的单目 RGB 视频中,视频帧由变换器网络处理,该变换器网络将观察结果融合到表示场景的体积特征网格中;然后将此特征网格解码为隐式 3D 场景表示。
 
Fast Convergence of DETR with Spatially Modulated Co-Attention
notion image
最近提出的检测转换器(DETR)模型成功地将转换器应用于对象检测,并实现了与两级对象检测框架(如Faster-RCNN)相当的性能。然而,DETR的收敛速度很慢。 从头开始训练 DETR 需要 500 个 epoch 才能实现高精度。为了加速其收敛,我们提出了一种简单而有效的改进DETR框架的方案,即空间调制共同注意(SMCA)机制。
 
T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression:
notion image
6D姿势估计是预测给定输入图像中物体的平移和方向的任务
 
ESOD:Edge-based Task Scheduling for Object Detection:
notion image
研究人员设计了通过牺牲精度为移动设备提供轻量级网络。
 
PCT: Point Cloud Transformer
notion image
 
Point Transformer:
notion image
 
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries:
DETR3D 不依赖视觉深度预测,直接在 3D 中进行检测,是目前自动驾驶领域最火的 Bird-Eye View(BEV)方法之一
传统的Monocular方法都是单张图像输入输出、multiview方法大家考虑的也是时间序列上的长序列,而并没有拓展到多视角上。
首先需要将 BEV 空间(也就是 vector space)进行栅格化,每个栅格使用一个 embedding 表示,然后通过 mlp 将 embedding 转化成 query。不仅进行了跨摄像头融合,同时又关联了 image space 和 vector space。
notion image
  1. 首先明确,object queries是类似DETR那样,即先随机生成M*个bounding box,类似先生成一堆anchor box,只不过这里的box是会被最后的loss梯度回传的。
  1. (蓝线)然后通过一个子网络,来对query预测一个三维空间中的参考点  (实际上就是3D bbox的中心)。通过角标我们可以看出,这个操作是layer-wise、query-wise的。这两个wise的概念参见下文的讨论。
  1. (绿线)利用相机参数,将这个3D参考点反投影回图像中,找到其在原始图像中对应的位置。
  1. (黄线)从图像中的位置出发,找到其在每个layer中对应的特征映射中的部分。
  1. (红线)利用多头注意力机制,将找出的特征映射部分对queries进行refine。这种refine过程是逐层进行的,理论上,更靠后的layer应该会吸纳更多的特征信息。
  1. (黑色虚线框之后)得到新的queries之后,再通过两个子网络分别预测bounding box和类别,然后就进入我们之前讨论的loss部分了。
    1.  
      notion image
文中主要对标的是FCOS3D和CenterNet,在leaderboard上对标DD3D,虽然DD3D使用了额外的深度数据集,但最终得益于mAVEF方面的大幅度碾压才得以使最终的NDS略高于DD3D(+0.002)。
 
tesla ai day
解释了单目检测然后融合存在的问题,不如直接在特征空间融合后在multi-head做检测和位置估计
notion image
notion image
 
Translating Images into Maps
这个端到端方法实现的任务包括:(1) 在图像平面构建表征,对语义和深度(depth)知识进行编码;(2) 图像平面表示转换为 BEV, 这种映射可以看作是语义目标从图像平面到其BEV平面射线的位置分配;和 (3) 语义上分割 BEV 表征。
notion image
notion image
数据集:nuScenes [33], Argoverse [34] and Lyft [35] datasets
 
Structured Bird’s-Eye-View Traffic Scene Understanding from Onboard Images:
notion image
notion image
数据集:NuScenes

© Dino 2021 - 2022