多模态数据感知（RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline）

时间2025-09-19 12:46:50分类IT科技浏览6368

导读：这篇论文既提出了一个大规模的RGB-T追踪的数据集，也相应提出了一个Baseline，在现有多个数据集上 GTOT / RGB210 / RGB234 上获得了最好的性能。关于这篇论文中数据集相关的信息请见这篇博客RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020...

这篇论文既提出了一个大规模的RGB-T追踪的数据集，也相应提出了一个Baseline ，在现有多个数据集上 GTOT / RGB210 / RGB234 上获得了最好的性能。

关于这篇论文中数据集相关的信息请见这篇博客RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAV

HMFT：论文数据集

RGB-T追踪算法简介

通常RGB-T追踪器主要用了RGB追踪器相似的pipeline ，然后聚焦于设计一个两模态融合方法。现有的融合方法主要分为：图片融合、特征融合、决策融合三类。

【图片融合】：利用BackBone网络，以共享权重的方式学习可见光图片和热红外图片的图片特征，并且学出来的这个共享权重相当于取了可见光图片和热红外图片中对定位目标有用的一致的信息。这种方法存在的缺陷是需要可见光图片和热红外图片高度对齐。 【特征融合】：大多数Tracker是融合可见光图片和热红外图片的特征。这里也有两种融合：1. 用一个模态作为辅助模态对另一个模态进行refine；2. 先直接把两个模态的特征拼接（通常按channel-wise），再通过深度网络学习一个新的两个模态交互后的特征。这种方法的优点是灵活性高，对图片的对齐要求不高。 【决策融合】：每个模态独立输出对目标的估计，以response map的形式，然后再融合这两个模态的决策，输出一个final score 。

HMFT

这个模型就容纳了以上这三种融合方法。模型图如下，可以看到 HMFT 框架有两个分支：Discriminative bransh 分支和Complementary bransh 分支。主要由3个主要模块组成：CIF / DFF / ADF 。

Discriminative bransh 分支： Complementary bransh 分支 ：

图像互补信息融合【CIF】

这个模块的作用是学习两个模态中目标相关的一致性信息。

模块的输入：

I_v

Iv和

I_t

It分别表示RGB图片和Thermal图片。蓝色部分是提取互补信息的网络【Comp. Backbone】，即ResNet50，共享权重，提取共同的特征。这里的

L_{div}

Ldiv

是KL-散度的Loss函数，作用是为了保持这两个模态的一致性，用KL散度约束特征的分布。所以在训练的时候，学习的目标函数就是使这两个backbone网络输出的特征尽可能相同。也相当于考虑了一致的信息。目标函数如下：

其中

P_v^i

Pvi和

P_t^i

Pti分别表示visible图片和thermal图片在ResNet50第

i层的特征。所以这是每层特征的KL散度之和求最小。输出是按channel-wise拼接起来的特征

∈

∗

P_a \in \mathbb{R}^{2C*H*W}

Pa∈R2C∗H∗W ，原本的特征维度为

∈

∗

P_{v/t} \in \mathbb{R}^{C*H*W}

Pv/t∈RC∗H∗W 。

辨别力特征的信息融合【DFF】

这个模块的作用是学习两个模态信息中不同的具有判别力的信息。RGB图像可以提供强大的外观信息；红外图像可以提供目标轮廓有关的信息。所以先单独对着两个模态建模，生成特征再融合。具体流程如下：

模型的输入：Backbone网络对两个模态独立输出特征

F_v

Fv 、

F_t

蓝色框：将

F_v

Fv 、

F_t

Ft通过对应元素相加（Elem.Sum）合起来，经过一个全局平均池化（GAP）和全连接层（FC）得到一个全局向量

d_g

dg ，包含了两个模态的信息。公式表达如下：这里

D_v

Dv 、

D_t

Dt就是对应

F_v

Fv 、

F_t

，应该是笔误。

橙色框：利用两个独立的模态专属全连接层

\digamma_v

ϝv 、

\digamma_t

ϝt+softmax操作生成模态专属的channel-wise的权重

w_v

wv,

∈

∗

w_t\in \mathbb{R}^{C*1*1}

wt∈RC∗1∗1

。

#pic_center)

红色框：用计算出的权重

w_v

wv,

w_t

wt用channel-wise乘法的方式与最初的模态特征

F_v

Fv 、

F_t

Ft相乘，再相加。

模块的输出：融合后的特征

D_a^i

Dai

适应性决策融合【ADF】

这个模块的作用是基于CIF 、DFF 分支独立输出的特征图，计算这些特征图的置信度，根据置信度计算这些特征图的权重对特征图加权，再产生最终的特征图。

模块的输入：CIF、DFF 分支独立输出的特征图

P_a

Pa和

D_a

Da 。 MAM 模块的作用是基于自注意力机制分别获取一致性分支和判别力分支置信度

M_c

Mc 、

M_d

Md 。具体操作是：对于输入的特征

X ，也就是上面的

P_a

Pa和

D_a

Da ，先通过1*1的卷积降低特征维度（为了降低计算量），再经过Reshape操作，将

X的shape从

C \times W \times H

C×W×H变成

C \times WH

C×WH ，作为自注意力机制中的特征嵌入，得到

HW \times C

HW×C的特征，再对channel加和再reshape得到

H \times W \times 1

H×W×1

的模型置信度。计算如下：

将

M_c

Mc和

M_d

Md 拼接起来，输入到一个两层的Encoder-Decoder网络中，得到模态各自的权重

∈

∗

E_c, E_d \in \mathbb{R}^{H*W}

Ec,Ed∈RH∗W 。这个权重对CIF 、DFF 分支独立输出的响应图

R_c

Rc和

R_d

Rd作element-wise乘（加权操作）得到

R_F

。

⊙

R_F=R_d \odot E_d+R_c \odot E_c

RF=Rd⊙Ed+Rc⊙Ec

算法流程

对于当前的追踪图片

两个分支Discriminative branch和Complementary branch 分别采用特征融合方法和图片信息融合方法得到目标响应图；利用ADF ，对两个分支Discriminative branch和Complementary branch 的响应图进行融合，生成最终响应图；利用DiMP中IoU预测模块，对最终响应图中取10个proposal ，再对proposal预测IoU分数，取分数最高的三个proposal作平均，输出最终的预测边界框。

QQQQQ QQ Q

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

展开全文READ MORE

python编写程序,利用可变参数定义一个（python变长参数的使用场景）