阅读了论文 Inception Transformer
论文结合 Inception 和八度卷积的思想,设计出以通道拆分机制来并行处理高频和低频信息的模块。
代码工作:
- 在6002上复现PVEN效果。
- 在6005上跑1600 测试集的Vehicle ID。
- 在fast-reid 上使用Inception Transformer
- 设计基于拆分通道并行处理的特征融合
在 fast-reid上测试 Inception transformer中的拆分通道并行处理高低频的模块,比只用resnet50涨了3个多点
[36m | Dataset | Rank-1 | Rank-5 | Rank-10 | mAP | mINP | metric | |
---|
VeRi | 94.46 | 96.84 | 97.91 | 75.82 | 43.25 | 85.14 | [0m |
问题分析
- PVEN一开始在vehicleID复现不出来结果,通过github提供的训练好的模型排除了模型部分代码问题,接着开始训练的代码中开始找问题,最终发现是没有使用resnet50在imagenet的预训练权重。最后在veri776上训练得到了接近原论文的结果。
- 自己设计的基于拆分通道并行处理的特征融合效果很差,感觉原因是模型设计的不够合理。
下一步
- 等PVEN结果出来,直接在PVEN上使用之前定好的模型进行训练。
- 感觉可以把Inception transformer里的那个模块应用在resnet50每个阶段的中间。实现发现这个模块的显存占用并不高,感觉可以多放几个试试。