摘要
行人重识别虽已取得了显著进展,但在实际应用场景中,不同障碍物引起的遮挡问题仍然是一个亟待解决的挑战。为了从被遮挡行人中提取更有效的特征,提出了一种基于可学习掩模和位置编码(Learnable mask and position encoding, LMPE)的遮挡行人重识别方法。首先,引入了一种可学习的双路注意力掩模生成器(Learnable dual attention mask generator, LDAMG),生成的掩模能够适应不同遮挡模式,显著提升了对被遮挡行人的识别准确性。该模块可以使网络更灵活,能更好地适应多样性的遮挡情况,有效克服了遮挡带来的困扰。同时,该网络通过掩模学习上下文信息,进一步增强了对行人所处场景的理解力。此外,为了解决Transformer位置信息损耗问题,引入了遮挡感知位置编码融合 (Occlusion aware position encoding fusion, OAPEF)模块。该模块进行不同层次位置编码融合,使网络获得更强的表达能力。通过全方位整合图像位置编码,可以更准确地理解行人间的空间关系,提高模型对遮挡情况的适应能力。最后,仿真实验表明,本文提出的LMPE在Occluded‑Duke和Occluded‑ReID遮挡数据集以及Market‑1501和DukeMTMC‑ReID无遮挡数据集上都取得了较好的效果,验证了本文方法的有效性和优越性。
随着计算机视觉和深度学习技术的飞速发展,行人重识别(Pedestrian re‑identification, ReID)已取得了显著进
现有遮挡行人重识别方法大概可分成基于卷积神经网络(Convolutional neural network, CNN)的方法和基于Transformer的方法两类。基于CNN的方
针对上述问题,本文提出了一种基于可学习掩模和位置编码(Learnable mask and position encoding, LMPE)的遮挡行人重识别方法。主要工作如下:(1)引入视觉Transformer (Vision Transformer, ViT)作为主干网络。通过引入ViT,充分利用其全局上下文的建模能力,能够有效处理由遮挡引起的信息缺失,更好地处理复杂的遮挡情况,从而显著提高对遮挡行人的识别准确率;(2)引入可学习的双路注意力掩模生成器(Learnable dual attention mask generator, LDAMG)。通过采用双路注意力机制,能够更好地关注不同通道和空间位置的特征,使得生成的掩模不仅更符合被遮挡行人的实际情况,还有助于区分不同身体部位或者不同行人之间的差异,从而提取更有区分性的特征。该模块有助于提高网络对遮挡情况的适应性,并增强模型在复杂场景中的表现能力;(3)引入遮挡感知位置编码融合 (Occlusion aware position encoding fusion, OAPEF)模块。该模块可以丰富位置信息,通过不同层次位置编码的融合,使网络能够灵活地表达不同位置的语义信息。同时,提高了网络对图像位置的敏感性,使网络获得对图像中细粒度特征的捕捉和理解能力。
当前用于遮挡行人重识别方法大概可分为两类,基于CNN的和基于Transformer的方法。Wang
此外,由于自注意力机制在处理不同规模的图像和复杂度的任务时展现出的出色表现,Transformer也被应用于遮挡行人重识别。He
因此,为了更好地适应多样性的遮挡情况,有效处理遮挡问题,本文引入了可学习的双路注意力掩模生成器。该生成器通过关注不同通道和空间位置的特征,增强了网络在复杂场景中的表现能力。同时,提出了遮挡感知位置编码融合模块,使网络能够灵活地表达不同位置的语义信息,并有效进行空间关系建模。
注意力机制与人的注意感知一致,在处理大量信息时,会优先集中在突出的部分。Li
为了克服Transformer未直接处理序列数据的位置信息这一限制,引入了位置编码,以在输入序列中引入关于元素的位置信息。位置编码使Transformer能够感知和利用序列中元素的相对位置关系,从而更好地捕捉图像和文本等数据中的空间结构。Vaswani
本文提出的基于可学习掩模和位置编码的遮挡行人重识别方法总体框架如

图1 LMPE总体框架
Fig.1 Overall framework of LMPE
由于传统Transformer最初设计是用于处理文本序列数据,缺乏对元素位置信息的建模。但在图像数据中,元素的位置关系对于准确的特征提取至关重要。为了将Transformer成功应用于图像数据,研究者们普遍引入了位置编码,以赋予模型对元素位置的感知能力。然而,经过深度训练后,模型可能会损失对位置信息的敏感性,从而影响其在图像识别任务中的表现。同时遮挡行人的问题通常涉及到不同层次的特征,包括局部细节和全局上下文。为此,设计了位置编码融合模块,有助于模型更全面地捕捉不同层次信息,提高对行人多个层次特征的提取能力。位置编码融合模块格式为
(1) |
式中:为融合后的位置编码,表示图像序列中图像块对应的序号,表示图像被分成的图像块数;为遮挡感知位置编码;为位置编码融合的层数; 表示在张量的最前面增加一个新维度。相较于传统位置编码,遮挡感知位置编码采用基于正态分布的随机初始化,具备更强的表达能力。具体来说,首先创建了1个可学习的参数,用于表示遮挡感知的位置编码,该参数有3个维度,其中第1维表示批处理大小,第2维表示图像块数量,第3维表示每个位置的嵌入维度,决定了模型对每个位置的特征表达。对可学习参数进行正态分布初始化,这个初始值会在训练过程中通过梯度反向传播进行优化,以适应模型任务。这样获得的位置编码能够在训练过程中根据数据的特性学习适应当前任务的位置信息,从而在深度训练后仍能保持对位置关系的敏感性。
进一步,对于位置编码进行融合操作。首先在最外层维度插入1个新维度,进行维度扩展,方便后续处理。创建1个矩阵用于存储各层次的位置编码,在前向传播中,遍历每个层次的位置编码,进行累加计算。具体来说,在融合不同层次的位置编码时,每个维度都对应输入序列的不同位置。在位置编码中,每个位置都被映射到一个特定的嵌入向量。在前向传播中,通过将这些位置编码与输入张量相加,可以根据位置编码的权重对输入序列的每个位置进行调整。于是,不同位置的元素会获得不同的重要性,从而使得模型能够更灵活地处理遮挡情况。此外,位置编码和图像特征的融合采取如下的绝对位置编码形式
(2) |
式中:表示经TBlock模块处理后的图像序列特征;表示添加位置编码后的特征。将添加位置编码的特征经归一化后即可馈入LDAMG模块进行进一步的特征处理,同时提取其中的类令牌用于完整原型的训练。
为了强化完整原型的特征表达,引入了三元组损失进行优化。三元组损失可有效地推动模型学习到更具区分性的特征表达。在训练过程中,通过比较同一身份的正样本和不同身份的负样本之间的相似性,模型能够更准确地区分不同的身份,从而提升了识别的准确性,三元组损失具体格式为
(3) |
式中:表示用类令牌训练的完整原型;和分别表示对应完整原型的正样本和负样本;为欧式范数;表示取最大值操作;为超参数。
位置编码融合模块允许模型捕捉不同尺度下的位置信息,能够更好地理解输入序列的结构。同时,还允许模型对序列中不同位置的元素赋予不同的重要性,能够更好地处理遮挡情况。此外,位置编码融合赋予了模型灵活适应不同大小行人目标的能力,不受固定位置编码长度的限制,对处理不同尺度的行人目标以及有效提取遮挡情况下的特征至关重要。
为了构建更符合遮挡情况的掩模,提出可学习的双路注意力掩模生成器,通过对空间和通道的双路特征处理,更好地聚焦图像中的显著特征。同时,行人被遮挡部分通常隐含了上下文信息,例如行人走在道路上可能被车辆遮挡,这样的上下文信息是理解整个场景的关键因素。有效的掩模生成器能够学习这些上下文信息,并帮助网络选择合适的子空间,使网络更全面、更深入地理解整个场景。为了更具体展示LDAMG模块内部结构,首先详细介绍LCA和LSA模块的完整结构,如

图2 LCA和LSA模块结构
Fig.2 Structures of LCA and LSA modules
由序列特征经归一化以及卷积操作得到LCA的输入特征,其中为批量大小,为通道数,和为空间尺寸。首先要对其进行通道维度的注意力权重计算,通道注意力分数计算如下所示
(4) |
(5) |
式中和为输入特征的通道注意力分数。在卷积操作中,每个卷积层生成的特征图由多个通道组成,每个通道代表不同的特征或特征组合。为了增强网络在学习和提取特征时的多样性,并构建更符合实际遮挡情况的掩模,采用了LCA进行特征处理,以提取不同特征之间的关系。具体而言,为了更有效地计算通道注意力,使用自适应最大池化(AdMPool)和自适应平均池化(AdAPool)对输入特征映射的空间维度进行压缩,以减少网络中需要学习的参数量。然后,通过卷积操作Conv和激活函数,获取每个通道注意力的得分。这一操作有助于网络建立不同特征之间的关系,进而提高网络在处理遮挡等复杂情况的图像时更好地捕获关键信息。将得到的通道注意力得分与原始输入特征进行加权融合,并获得最终的输出如下
(6) |
式中:表示可学习通道注意力模块的输出;表示逐元素相乘;表示对两个特征进行拼接操作。具体来说,输入特征跟通道注意力得分融合后,对自适应最大池化和自适应平均池化两个分支进行特征拼接,并再一次进行卷积。最后经过激活函数,获得可学习通道注意力模块的输出。经过权重融合的通道注意力,更加关注了对特定任务或特征更为关键的通道,明确了每个通道在局部区域的重要性。同时通过动态地调整每个通道的权重,使网络更容易适应输入数据的复杂特征分布,从而提高了网络的泛化性能。
对于可学习双路注意力掩模生成器中的LSA,首先分别对输入特征计算最大值和平均值,然后对结果进行拼接,进而获得最终输出结果,其格式如下
(7) |
式中:表示可学习空间注意力模块的输出;表示对特征进行最大池化处理; 表示对特征进行平均池化处理。不同于LCA,LSA关注的是特征在特征图中的位置和排列,可以明确强调或抑制某些位置上的特征。该模块通过计算输入特征图在每个空间位置的最大值和平均值,能够捕捉到图像中不同位置的重要信息,使网络更加关注包含重要特征的空间位置,特别是对于被遮挡行人的关键部位。同时,该模块还能够使网络自适应地调整对每个位置的关注程度,更好地适应不同遮挡情况。
对于整体的可学习双路注意力掩模生成器来说,首先需要对输入的特征图进行特征重塑,然后进行卷积操作,进一步提取和整合特征。使特征图分别经过可学习通道注意力和可学习空间注意力进行各自维度的加权,最后将最终的输出与输入张量进行残差连接,生成最终的掩模,其具体格式为
(8) |
输入特征经过残差连接后,再统一经过线性层,获得最终的掩模,通过通道和空间的双路加权,掩模可以更好地关注和利用不同通道和空间位置的特征,更加符合遮挡行人的被遮挡情况。
为了对完整分支和掩模分支进行有效约束,同时强调在训练阶段学习高质量掩模的重要性,采用交叉熵损失进行优化,其具体格式为
(9) |
式中:表示每批内训练样本个数;为生成的掩模;为类标签;表示被识别为类别标签的预测概率。
为了证明提出方法的有效性和优越性,在两个遮挡数据集Occluded‑Duk
采用Rank‑
本文实验选择PyTorch作为实现框架,并利用强大的RTX 3090 GPU进行模型训练和推理。为了提高模型的学习能力,选用了在ImageNet21
为了定性评估提出的LMPE模型的性能,分别展示了Occluded‑Duke和Market‑1501数据集上的可视化结果。
在Occluded‑Duke遮挡数据集上展示提出的LMPE的识别性能,其可视化结果如

图4 Occluded-Duke数据集的可视化结果
Fig.4 Visualization results of Occluded-Duke dataset
此外在Market‑1501无遮挡数据集上展示LMPE和其他两种不同对比方法的可视化结果,其可视化结果如

图5 Market-1501数据集的可视化结果
Fig.5 Visualization results of Market-1501 dataset
总的来说,无论是遮挡情况还是非遮挡情况,LMPE都表现出最出色的性能。
为了证明本文方法的有效性,在两个公开的遮挡数据集上定量比较了提出的LMPE和一些先进的行人重识别方法。用于对比的方法包括基于CNN的方
模型 | Occluded‑Duke | Occluded‑ReID | ||
---|---|---|---|---|
Rank‑1 | mAP | Rank‑1 | mAP | |
IS | 61.2 | 49.8 | - | - |
PVP | 47.0 | 37.7 | 70.4 | 61.2 |
HoReI | 54.9 | 43.6 | 79.3 | 70.1 |
RTGA | 61.0 | 50.1 | 71.8 | 51.0 |
FE | 68.1 | 56.4 | 86.3 | 79.3 |
TransReI | 67.1 | 59.6 | 81.5 | 76.2 |
PA | 64.5 | 53.6 | 81.6 | 72.1 |
DP | 67.6 | 58.6 | 84.2 | 76.9 |
PF | 66.3 | 59.1 | 80.5 | 76.7 |
LMPE | 71.8 | 61.4 | 84.6 | 79.4 |
基于CNN的方法通过多层卷积和池化操作,有助于从图像中学习抽象特征。但是在面对大范围遮挡时,由于卷积操作的局部感受野,遮挡可能导致部分特征信息的丢失,影响模型性能。ISP和HoReID通过辅助网络提取行人姿态,弥补了基于CNN网络因遮挡带来特征信息丢失的问题,ISP在Occluded‑Duke数据集上Rank‑1可达到61.2%。基于Transformer方法能够对整个输入序列进行全局关系建模,而不受卷积操作的感受野限制。同时自注意力机制和多头注意力机制使其在处理不同尺度和复杂关系时更具有可扩展性,有助于适应遮挡场景的多样性。基于Transformer方法在遮挡行人重识别领域都获得了优异的性能,例如,PFD的Rank‑1和mAP达到66.3%和59.1%。与PFD相比,提出的LMPE的Rank‑1和mAP分别提高了5.5%和2.3%,达到了71.8%和61.4%,在遮挡行人重识别任务上展现出了优异的性能。在Occluded‑Duke数据集上,LMPE的Rank‑1和mAP均高于FED。在Occluded‑ReID数据集上,LMPE的Rank‑1比FED低了1.7%,mAP高出0.1%。FED采用的遮挡增强策略,主要针对常见遮挡发生的4个位置(即上、下、左、右各方向上区域)进行进一步处理,符合实际情况,不受数据集大小限制。因此无论是主流Occluded‑Duke数据集还是小型Occluded‑ReID数据集都有良好的表现。提出的LMPE需要在训练过程中收集大量数据来不断进行优化掩模的生成,以便网络能适应多种情况,因此可能在小型数据集上性能略差于FED,但在主流数据集上性能好于FED。
为了验证提出方法的通用性,在完整行人重识别数据集Market‑1501和DukeMTMC‑ReID上与一些先进的行人重识别方法进行定量比较。用于对比的方法包括基于CNN的方
模型 | Market‑1501 | DukeMTMC‑ReID | ||
---|---|---|---|---|
Rank‑1 | mAP | Rank‑1 | mAP | |
IS | 95.0 | 88.1 | 89.5 | 80.1 |
PC | 92.1 | 76.6 | 80.7 | 65.3 |
HoReI | 93.2 | 81.8 | 85.1 | 72.5 |
RTGA | 95.3 | 88.2 | 89.1 | 80.2 |
PGF | 91.2 | 76.8 | 82.6 | 65.5 |
FE | 95.0 | 86.3 | 89.4 | 78.0 |
NForme | 93.2 | 83.7 | 90.3 | 82.1 |
TransReI | 93.2 | 86.9 | 90.2 | 81.0 |
PF | 94.9 | 88.1 | 90.4 | 82.2 |
LMPE | 95.7 | 89.6 | 90.9 | 83.1 |
本文提出的方法主要由LDAMG和OAPEF组成,其中LDAMG又包含LCA和LSA两个子模块。为了验证每个模块的有效性,在遮挡数据集Occluded‑Duke上进行了消融实验,实验结果如
模型 | Occluded‑Duke | |||
---|---|---|---|---|
Rank‑1 | Rank‑5 | Rank‑10 | mAP | |
Base | 67.6 | 81.1 | 84.7 | 58.6 |
Base+LCA | 68.8 | 80.4 | 84.6 | 60.2 |
Base+LSA | 68.6 | 81.2 | 85.1 | 59.9 |
Base+LDAMG | 69.3 | 80.5 | 84.8 | 60.7 |
Base+OAPEF | 70.1 | 82.6 | 86.4 | 61.0 |
Base+LDAMG+OAPEF | 71.8 | 83.9 | 87.6 | 61.4 |
为了从被遮挡行人中提取更有效的特征,提出了基于可学习掩模和位置编码的遮挡行人重识别方法。一方面,为了使网络更适应遮挡情况,提出了可学习的双路注意力掩模生成器,生成的掩模可以选择合适的子空间,使模型在处理遮挡问题时更加灵活。另一方面,由于传统Transformer缺少位置信息,还提出遮挡感知位置编码融合模块,通过融合不同层次位置信息,使模型更准确地理解行人与场景之间关系,提高了遮挡行人重识别任务的识别准确率。实验表明,提出的LMPE能够显著提升行人重识别效果。未来的研究中,将进一步深入研究遮挡问题,考虑对遮挡信息与掩模信息进行有效融合,通过生成的掩模,引导网络获得准确定位遮挡位置,进一步提高识别准确率。
参考文献
YE Meng, CHEN Shuoyi, LI Chenyue, et al. Transformer for object re-identification: A survey[EB/OL]. (2024-01-13)[2024-03-30]. https://arxiv.org/pdf/2401.06960. [百度学术]
夏道勋, 郭方, 刘浩杰,等. 开放式行人再识别研究进展综述[J]. 数据采集与处理, 2021, 36(3): 449-467. [百度学术]
XIA Daoxun, GUO Fang, LIU Haojie, et al. Review on research progress of open-world person re-identification[J]. Journal of Data Acquisition and Processing, 2021, 36(3): 449-467. [百度学术]
ZAHRA A, PERWAIZ N, SHAHZAD M, et al. Person re-identification: A retrospective on domain specific open challenges and future trends[J]. Pattern Recognition, 2023, 142: 109669. [百度学术]
PENG Yunjie, HOU Saihui, CAO Chunshui, et al. Deep learning based occluded person re-identification: A survey[J]. ACM Transactions on Multimedia Computing, Communications and Applications, 2023, 20(3): 1-27. [百度学术]
NING Enhao, WANG Changshuo, ZHANG Huang, et al. Occluded person re-identification with deep learning: A survey and perspectives[J]. Expert Systems with Applications, 2023, 239: 122419. [百度学术]
NGUYEN V D, KHALDI K, NGUYEN D, et al. Contrastive viewpoint-aware shape learning for long-term person re-identification[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa, HI, USA: IEEE, 2024: 1041-1049. [百度学术]
NING Enhao, WANG Yangfan, WANG Changshuo, et al. Enhancement, integration, expansion: Activating representation of detailed features for occluded person re-identification[J]. Neural Networks, 2024, 169: 532-541. [百度学术]
ZHU Kuan, GUO Haiyun, LIU Zhiwei, et al. Identity-guided human semantic parsing for person re-identification[C]//Proceedings of Computer Vision ECCV 2020: 16th European Conference. Glasgow, UK: Springer International Publishing, 2020: 346-363. [百度学术]
GAO Shang, WANG Jingya, LU Huchuan, et al. Pose-guided visible part matching for occluded person reid[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE Computer Society, 2020: 11744-11752. [百度学术]
SUN Yifan, ZHENG Liang, YANG Yi, et al. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of the European Conference on Computer Vision. Cham: Springer, 2018: 480-496. [百度学术]
CHENG Xinhua, JIA Mengxi, WANG Qian, et al. More is better: Multi-source dynamic parsing attention for occluded person re-identification[C]//Proceedings of the 30th ACM International Conference on Multimedia. Lisbon, Portugal: ACM, 2022: 6840-6849. [百度学术]
WANG Zhikang, ZHU Feng, TANG Shixiang, et al. Feature erasing and diffusion network for occluded person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE Computer Society, 2022: 4754-4763. [百度学术]
HONG Xing, ZHANG Langwen, YU Xiaoyuan, et al. MBA-Net: Multi-branch attention network for occluded person re-identification[J]. Multimedia Tools and Applications, 2024, 83(2): 6393-6412. [百度学术]
WANG Haochen, SHEN Jiayi, LIU Yongtuo, et al. NFormer: Robust person re-identification with neighbor transformer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE Computer Society, 2022: 7297-7307. [百度学术]
ZHANG Xin, FU Keren, ZHAO Qijun. Dynamic patch-aware enrichment transformer for occluded person re-identification[EB/OL]. (2024-02-16)[2024-03-30]. https://arxiv.org/html/2402.10435v1. [百度学术]
WANG Guanan, YANG Shuo, LIU Huanyu, et al. High-order information matters: Learning relation and topology for occluded person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE Computer Society, 2020: 6449-6458. [百度学术]
ZHOU Shuren, ZHANG Mengsi. Occluded person re-identification based on embedded graph matching network for contrastive feature relation[J]. Pattern Analysis and Applications, 2023, 26(2): 487-503. [百度学术]
HUANG Meiyan, HOU Chunping, YANG Qingyuan, et al. Reasoning and tuning: Graph attention network for occluded person re-identification[J]. IEEE Transactions on Image Processing, 2023, 32: 1568-1582. [百度学术]
HE Shuting, LUO Hao, WANG Pichao, et al. TransReID: Transformer-based object re-identification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 15013-15022. [百度学术]
ZHAO Yunbin, ZHU Songhao, WANG Dongsheng, et al. Short range correlation transformer for occluded person re-identification[J]. Neural Computing and Applications, 2022, 34(20): 17633-17645. [百度学术]
LI Yulin, HE Jianfeng, ZHANG Tianzhu, et al. Diverse part discovery: Occluded person re-identification with part-aware transformer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE Computer Society, 2021: 2898-2907. [百度学术]
TAN Lei, DAI Pingyang, JI Rongrong, et al. Dynamic prototype mask for occluded person re-identification[C]//Proceedings of the 30th ACM International Conference on Multimedia. Lisbon, Portugal: ACM, 2022: 531-540. [百度学术]
WANG Tao, LIU Hong, SONG Pinhao, et al. Pose-guided feature disentangling for occluded person re-identification based on Transformer[C]//Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2022, 36(3): 2540-2549. [百度学术]
LI Xia, ZHONG Zhisheng, WU Jianlong, et al. Expectation-maximization attention networks for semantic segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, Korean: IEEE, 2019: 9167-9176. [百度学术]
PAN Xuran, GE Chunjiang, LU Rui, et al. On the integration of self-attention and convolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE Computer Society, 2022: 815-825. [百度学术]
HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 7132-7141. [百度学术]
KOOHPAYEGANI S A, PIRSIVASH H. SimA: Simple softmax-free attention for vision transformers[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa, HI, USA: IEEE, 2024: 2607-2617. [百度学术]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30: 5998-6008. [百度学术]
SHAW P, USKOREIT J, VASWANI A. Self-attention with relative position representations[EB/OL]. (2018-04-12)[2024-03-30]. https://arxiv.org/pdf/1803.02155. [百度学术]
WU Kan, PENG Houwen, CHEN Minghao, et al. Rethinking and improving relative position encoding for vision transformer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 10033-10041. [百度学术]
MIAO Jiaxu, WU Yu, LIU Ping, et al. Pose-guided feature alignment for occluded person re-identification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, Korean: IEEE, 2019: 542-551. [百度学术]
ZHUO Jiaxuan, CHEN Zeyu, LAI Jianhuang, et al. Occluded person re-identification[C]//2018 IEEE International Conference on Multimedia and Expo. San Diego, CA, United States: IEEE, 2018: 1-6. [百度学术]
ZHENG Liang, SHEN Liyue, TIAN Lu, et al. Scalable person re-identification: A benchmark[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Computer Society, 2015: 1116-1124. [百度学术]
ZHENG Zhedong, ZHENG Liang, YANG Yi. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 3754-3762. [百度学术]
DENG Yichuan, LI Zhihang, SONG Zhao. An improved sample complexity for rank-1 matrix sensing[EB/OL]. (2023-03-13)[2024-03-30]. https://arxiv.org/pdf/2303.06895. [百度学术]
孙明浩,王洪元,吴琳钰,等. 基于特征金字塔分支和非局部关注的行人重识别[J]. 数据采集与处理, 2023,38(1): 121-131. [百度学术]
SUN Minghao, WANG Hongyuan, WU Linyu, et al. Person re⁃identification based on feature Pyramid branch and non⁃local attention[J]. Journal of Data Acquisition and Processing, 2023, 38(1): 121-131. [百度学术]
PINTOR M, ANGIONI D, SOTGIU A, et al. ImageNet-Patch: A dataset for benchmarking machine learning robustness against adversarial patches[J]. Pattern Recognition, 2023, 134: 109064. [百度学术]
GARCEA F, SERRA A, LAMBERTI F, et al. Data augmentation for medical imaging: A systematic literature review[J]. Computers in Biology and Medicine, 2023, 152: 106391. [百度学术]
BEZNOSIKOV A, GORBUNOV E, BERARD H, et al. Stochastic gradient descent-ascent: Unified theory and new efficient methods[C]//Proceedings of International Conference on Artificial Intelligence and Statistics. Valencia, Spain: IEEE, 2023: 172-235. [百度学术]