多模态数据感知(RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline)
这篇论文既提出了一个大规模的RGB-T追踪的数据集 ,也相应提出了一个Baseline ,在现有多个数据集上 GTOT / RGB210 / RGB234 上获得了最好的性能 。
关于这篇论文中数据集相关的信息请见这篇博客RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAVHMFT:论文 数据集
RGB-T追踪算法简介
通常RGB-T追踪器主要用了RGB追踪器相似的pipeline ,然后聚焦于设计一个两模态融合方法 。现有的融合方法主要分为:图片融合 、特征融合 、决策融合三类 。
【图片融合】:利用BackBone网络 ,以共享权重的方式学习可见光图片和热红外图片的图片特征 ,并且学出来的这个共享权重相当于取了可见光图片和热红外图片中对定位目标有用的一致的信息 。这种方法存在的缺陷是需要可见光图片和热红外图片高度对齐 。 【特征融合】:大多数Tracker是融合可见光图片和热红外图片的特征 。这里也有两种融合:1. 用一个模态作为辅助模态对另一个模态进行refine;2. 先直接把两个模态的特征拼接(通常按channel-wise) ,再通过深度网络学习一个新的两个模态交互后的特征 。这种方法的优点是灵活性高 ,对图片的对齐要求不高 。 【决策融合】:每个模态独立输出对目标的估计 ,以response map的形式 ,然后再融合这两个模态的决策,输出一个final score 。HMFT
这个模型就容纳了以上这三种融合方法。模型图如下 ,可以看到 HMFT 框架有两个分支:Discriminative bransh 分支和Complementary bransh 分支 。主要由3个主要模块组成:CIF / DFF / ADF 。
Discriminative bransh 分支: Complementary bransh 分支 :图像互补信息融合【CIF】
这个模块的作用是学习两个模态中目标相关的一致性信息。
模块的输入:I
v
I_v
Iv和I
t
I_t
It分别表示RGB图片和Thermal图片 。 蓝色部分是提取互补信息的网络【Comp. Backbone】 ,即ResNet50,共享权重 ,提取共同的特征 。这里的L
d
i
v
L_{div}
Ldiv是KL-散度的Loss函数 ,作用是为了保持这两个模态的一致性,用KL散度约束特征的分布。所以在训练的时候 ,学习的目标函数就是使这两个backbone网络输出的特征尽可能相同 。也相当于考虑了一致的信息 。目标函数如下:
其中P
v
i
P_v^i
Pvi和P
t
i
P_t^i
Pti分别表示visible图片和thermal图片在ResNet50第i
i
i层的特征 。所以这是每层特征的KL散度之和求最小 。 输出是按channel-wise拼接起来的特征P
a
∈
R
2
C
∗
H
∗
W
P_a \in \mathbb{R}^{2C*H*W}
Pa∈R2C∗H∗W ,原本的特征维度为P
v
/
t
∈
R
C
∗
H
∗
W
P_{v/t} \in \mathbb{R}^{C*H*W}
Pv/t∈RC∗H∗W 。辨别力特征的信息融合【DFF】
这个模块的作用是学习两个模态信息中不同的具有判别力的信息 。RGB图像可以提供强大的外观信息;红外图像可以提供目标轮廓有关的信息 。所以先单独对着两个模态建模 ,生成特征再融合 。具体流程如下:
模型的输入:Backbone网络对两个模态独立输出特征
F
v
F_v
Fv 、F
t
F_t
Ft蓝色框:将
F
v
F_v
Fv 、F
t
F_t
Ft通过对应元素相加(Elem.Sum)合起来 ,经过一个全局平均池化(GAP)和全连接层(FC)得到一个全局向量d
g
d_g
dg ,包含了两个模态的信息 。公式表达如下:这里D
v
D_v
Dv 、D
t
D_t
Dt就是对应F
v
F_v
Fv 、F
t
F_t
Ft,应该是笔误。
橙色框:利用两个独立的模态专属全连接层
ϝ
v
\digamma_v
ϝv 、ϝ
t
\digamma_t
ϝt+softmax操作生成模态专属的channel-wise的权重w
v
w_v
wv,w
t
∈
R
C
∗
1
∗
1
w_t\in \mathbb{R}^{C*1*1}
wt∈RC∗1∗1。
#pic_center)红色框:用计算出的权重
w
v
w_v
wv,w
t
w_t
wt用channel-wise乘法的方式与最初的模态特征F
v
F_v
Fv 、F
t
F_t
Ft相乘 ,再相加 。模块的输出:融合后的特征
D
a
i
D_a^i
Dai适应性决策融合【ADF】
这个模块的作用是基于CIF 、DFF 分支独立输出的特征图 ,计算这些特征图的置信度 ,根据置信度计算这些特征图的权重对特征图加权,再产生最终的特征图。
模块的输入:CIF、DFF 分支独立输出的特征图P
a
P_a
Pa和D
a
D_a
Da 。 MAM 模块的作用是基于自注意力机制分别获取一致性分支和判别力分支置信度M
c
M_c
Mc 、M
d
M_d
Md 。具体操作是:对于输入的特征X
X
X ,也就是上面的P
a
P_a
Pa和D
a
D_a
Da ,先通过1*1的卷积降低特征维度(为了降低计算量),再经过Reshape操作 ,将X
X
X的shape从C
×
W
×
H
C \times W \times H
C×W×H变成C
×
W
H
C \times WH
C×WH ,作为自注意力机制中的特征嵌入,得到H
W
×
C
HW \times C
HW×C的特征 ,再对channel加和再reshape得到H
×
W
×
1
H \times W \times 1
H×W×1的模型置信度。计算如下:
将M
c
M_c
Mc和M
d
M_d
Md 拼接起来 ,输入到一个两层的Encoder-Decoder网络中 ,得到模态各自的权重E
c
,
E
d
∈
R
H
∗
W
E_c, E_d \in \mathbb{R}^{H*W}
Ec,Ed∈RH∗W 。这个权重对CIF 、DFF 分支独立输出的响应图R
c
R_c
Rc和R
d
R_d
Rd作element-wise乘(加权操作)得到R
F
R_F
RF。
R
F
=
R
d
⊙
E
d
+
R
c
⊙
E
c
R_F=R_d \odot E_d+R_c \odot E_c
RF=Rd⊙Ed+Rc⊙Ec算法流程
对于当前的追踪图片
两个分支Discriminative branch和Complementary branch 分别采用特征融合方法和图片信息融合方法得到目标响应图; 利用ADF ,对两个分支Discriminative branch和Complementary branch 的响应图进行融合 ,生成最终响应图; 利用DiMP中IoU预测模块 ,对最终响应图中取10个proposal ,再对proposal预测IoU分数 ,取分数最高的三个proposal作平均 ,输出最终的预测边界框 。QQQQQ QQ Q
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!