yuyi
科研成果1
论文标题:
Global–Local Discriminative Representation Learning Network for Viewpoint-Aware Vehicle Re-Identification in Intelligent Transportation
发表情况:
IEEE Transactions on Instrumentation and Measurement (SCI 中科院2区 Top期刊)
下文主要关注于方法的介绍
整体网络模型
如模型图所示,本研究引入了一个经过改良的ResNet50网络作为核心的主干网络,专注于从车辆图像中提取具有高度区分度的特征。这一改进的网络设计,特别强调对车辆中信息丰富、区分能力强的局部的关注,同时减少对那些区分信息有限的局部的依赖。这种方法有助于提高网络在车辆重识别任务中的表现,确保能够从复杂的视觉数据中提取出关键信息。
进一步地,本研究提出了一个特征融合模块,旨在有效整合主干网络在第三阶段和第四阶段的输出。通过这种融合,能够增强网络对于重识别任务所需的信息的提取能力,从而生成更加丰富和细腻的特征表示。
此外,本研究集成了一个语义分割网络,该网络能够将车辆图像分割成五个关键部分:正面、背面、侧面、顶面和背景。这种划分策略极大地提高了网络对于视角变化的鲁棒性,有效缓解了由于视角差异带来的匹配问题。
在特征融合模块的基础上,通过全局平均池化和掩码全局平均池化技术,分别生成了全局特征向量和四个局部特征向量。为了进一步优化特征的利用,本研究开发了一个自适应局部注意力机制,它不仅考虑了每个局部的面积,还考虑了其局部特征的信息量,从而为每个局部特征分配了适当的权重。
在计算查询车辆图像与图库中每一张车辆图像的相似度时,综合利用了全局特征、局部特征以及通过自适应局部注意力机制得到的重要性权重。这种综合利用策略使得网络能够更准确地完成图库图像的排名任务。
最后,整个网络的训练过程融合了分类损失和度量学习损失,以确保网络权重能够有效地适应重识别任务的需求。这种训练策略不仅提高了模型的性能,也确保了其在实际应用中的鲁棒性和泛化能力。
多特征融合模块
如图所示,CAFF(Channel-wise Attention Feature Fusion,通道注意力特征融合)模块接收两个特征图 Fh 和 Fl(在实验中,假设 Fh 和 Fl 分别是主干网络的第三阶段和第四阶段的输出)。CAFF首先通过带有批量归一化(BN)和线性整流单元(ReLU)激活的 3×3 卷积层调整 Fh 和 Fl 的形状,使它们大小相同。数学上,上述过程可以表示为:
Fh = ReLU(BN(CONV(Fh)))
Fl = ReLU(BN(CONV(Fl)))
然后,使用注意力模块,使每个通道上的元素能够从高级和低级特征中选择各自的上下文信息进行聚合。具体来说,对于 &hat;Fh 和 &hat;Fl,CAFF模块首先使用全局平均池化(GAP)和全局最大池化(GMP)操作来压缩空间维度,并聚合空间信息。这样,就生成了四个维度为 RC × 1 × 1 的特征图。然后,它沿通道轴将这些特征连接起来,公式表达为:
Fcat = Concat(GAP(&hat;Fh), GMP(&hat;Fl), GAP(&hat;Fl), GMP(&hat;Fh))
接下来,受到瓶颈设计的启发,使用两个卷积层来通过减少然后增加维度来学习连接特征图的通道间相关性。之后,使用sigmoid激活函数来预测一个注意力权重 α ∈ RC × 1 × 1 并在蒙版和两个特征图之间进行逐像素乘积。最后,对注意力加权的特征进行逐像素求和,以生成最终结果。简而言之,上述过程可以表示为:
α = σ(CONV2 (CONV1 (Fcat)))
F = CONV(&hat;Fh × α + &hat;Fl × (1 - α))
其中 CONV1 (·) 表示带有BN和ReLU的3 × 3点卷积,用于降低维度。CONV2 (·) 表示相同的卷积层,用于增加维度。
与简单的特征求和或连接方法相比,本研究的CAFF模块可以根据注意力权重自适应地融合高级和低级特征,从而减少噪声特征的干扰并增强有信息特征的效果。
语义分割模块
为了获得准确的车辆部件解析结果,本工作采用了\cite{meng2020parsing}中开发的分割模型。该算法模型采用了U-Net\cite{ronneberger2015u}网络架构,并以VGG16为基础,对车辆的不同角度和部位进行了精细的分割训练。通过这种训练方法,开发的网络模型能够高效地识别车辆在各种角度下的遮罩特征。
以车辆图像 I 作为输入,分割模型将输出与 I 大小相同的语义分割图 B。考虑到车辆的两侧是对称的,且几乎不可能同时出现,整个车辆图像被划分为四部分:前部、后部、顶部和侧面。具体来说,对于车辆图像 I 上具有坐标 (h, w) 的每个点,有 B(h, w) ∈ {0, 1, 2, 3, 4},对应于点 (h, w) 所属的类别。这里,标签0对应于背景,而标签1、2、3和4分别对应于车辆的正面、侧面、顶面和背面。车辆局部部件划分的一些示例显示在图中。
为了方便表述,让车辆的正面、侧面、顶面和背面分别由车辆部件 i(i ∈ {1, 2, 3, 4})表示。然后,可以如下定义全局和局部车辆语义部件掩模 MG 和 MiL:
MG(h,w) = 1, if B(h,w) ≠ 0; 0, if B(h,w) = 0
MiL(h,w) = 1, if B(h,w) = i; 0, if B(h,w) ≠ i
其中 MG(h,w) 和 MiL(h,w) 分别表示车辆图像 I 上的任何点 (h, w) 对应于语义部件掩模 MG 和 MiL。
基于这些语义部件掩模和方程式中的特征图 F,使用掩模全局平均池化 (mask GAP) 来获得全局车辆特征向量 𝐟G 以及每个车辆部件 i 的局部特征向量 𝐟iL,其公式如下:
𝐟G = ∑h,w MG(h,w) F(h,w) / ∑h,w MG(h,w)
𝐟iL = ∑h,w MiL(h,w) F(h,w) / ∑h,w MiL(h,w)
其中 F(h,w) 表示特征图 F 中的元素,{𝐟G, 𝐟iL} --- > 未完待续 ### 自适应注意力感知 ### 损失函数和特征距离计算 ### 相关实验