摘要
在跨场景、跨设备的行人重识别中虽然增加了可利用的行人数据,但由于行人姿态不同、部分遮挡现象,难以避免引入样本噪声,在聚类过程中易生成错误的伪标签,造成标签噪声,影响模型的优化。为减弱噪声影响,应用相机感知的距离矩阵对抗相机偏移引起的样本噪声问题,利用对噪声鲁棒的动态对称对比损失减少标签噪声,提出基于相机感知距离矩阵的无监督行人重识别算法。在聚类前通过更改度量行人特征相似度的距离矩阵,利用相机感知距离矩阵来增强类内距离度量准确性,减少由于拍摄视角不同对聚类效果造成的负面影响。同时,结合噪声标签学习方法,进行损失设计,提出动态对称对比损失函数,联合损失训练,不断精炼伪标签。在DukeMTMC‑reID和Market‑1501两个数据集上进行实验,验证了提出方法的有效性。
行人重识别技
本文主要研究学习完全无监督行人重识别任务,目的为利用无标注的数据优化ReID模型,提升模型在新场景下的泛化能力。因其实验设置为全程利用无标注的数据,更具有挑战性。而无标注的数据在使用时也面临着噪声问题。行人重识别数据集中的图片拍摄自不同相机,比如Market‑1501数据集中的图片拍摄自6个不同的相机。如

图1 同一行人的跨相机样本
Fig.1 Cross‑camera samples of the same pedestrian
针对上述样本噪声和标签噪声的问题,本文提出一种基于相机感知距离矩阵的无监督行人重识别算法。主要工作如下:使用基于聚类的主体框架,将距离度量的结果作为样本相似度,在聚类前的距离度量中考虑减少相机偏差造成的样本噪声影响,应用相机感知距离矩阵,提高对有效特征度量的准确性;结合自监督对比学习和基于伪标签的无监督行人重识别策略,将噪声标签学习应用于无监督行人重识别任务,并进行损失设计来提高模型的抗噪鲁棒性。在不同数据集上的实验结果表明本文方法能够提升无监督行人重识别的模型性能。
在近期的无监督行人重识别任务中,文献[
目前在无监督任务中利用聚类的方法生成伪标签是比较流行的方式,在网络训练过程中,标签噪声中的信息会对网络性能带来干扰。噪声标签学习(Learning with noisy labels,LNL)能够对标签噪声样本进行合理的训练避免标签噪声的干扰。在无监督任务中应用噪声标签学习,避免噪声对网络模型的训练造成干扰是近年来的一个热门话题。目前关于噪声标签学习的研究主要可以分为样本重新加权方
目前,无监督行人重识别的经典解决方案是类自步的算法,如

图2 无监督行人重识别系统
Fig.2 Unsupervised person re‑identification system
本文算法的整体框架如

图3 本文方法的整体框架
Fig.3 Overall architecture of the proposed method
由于行人重识别的数据集为跨场景拍摄,不同相机拍摄的图像呈现不同的分布,具体表现为视角或光照差异引起的不同。由于拍摄角度的不同,行人存在外观差距,同时可能遮挡行人的明显特征,对特征相似度的排序以及聚类准确度造成很大干扰。
在无监督行人重识别任务中的每一轮聚类算法前,对需要识别图片进行距离度量,再进行聚类,以生成伪标签。目前最常用的距离度量矩阵为k‑倒排最近邻的检索重排序方
首先设置一个反映不同相机域之间(或一个域内)的图像差异的相机域偏移矩阵,其中表示相机的数量。然后,在每次迭代中,矩阵由属于相应相机域的实例对的平均相似度计算。最后,通过原始距离矩阵,其中N为实例类别数,和偏移矩阵计算相机感知距离矩阵,尝试从减少相机域偏移。在中,实例之间的距离会更好地反映不同行人之间的差异。
原始距离矩阵用于计算实例特征之间的相似度,表示第个实例和第个实例之间的相似度。由于行人样本的数量远大于相机域的数量,因此可以预期,每个相机对间的相似度的平均值可以隐式地由相应的域间或域内条件(或受相机标签影响的相似度)引起的样本差异表示。相机域偏移矩阵中相机偏移距离计算如下
(1) |
式中:u、v表示实例;、表示第u个实例和第v个实例的相机标签;表示相机捕获的实例数量。时,偏移距离表示相机内的相似度值,值越大表示域相似度越大,域内(同一相机标签)的值应该最大。相机感知距离矩阵由原始距离矩阵和偏移矩阵计算得到
(2) |
式中为控制相机因素影响的参数。对于相机因素影响显着的数据集,相应地设置得更大。
最终求得实例间的新的距离为由相机感知距离与文献[

图4 相机感知距离的应用
Fig.4 Application of camera‑aware distance
在无监督行人重识别任务中,通过使用相机感知距离矩阵(Camera‑aware distance matrix,CADM)来进行具有相机感知的聚类,考虑了每个相机内和相机间的实例对,减少了来自不同相机域的距离偏差对样本造成的影响,有助于减少拍摄视角不同引起行人样本差异在聚类过程中生成的错误伪标签,且有助于减少标签噪声,更利于模型后续优化。
对于无监督行人重识别任务来说,因其样本非理想状态中干净的数据,本文采用损失设计的方法来提升模型的抗噪鲁棒性。
在无监督任务中,由于每一次聚类后类别数量发生变化,难以利用噪声标签学习中的方法,本文采用文献[
(3) |
式中:表示簇质心; 表示离群点实例特征; 表示对应的正样本类别原型; 温度根据经验设置为0.05; 表示两个特征向量的内积,衡量它们的相似性; 为聚类集群的数量, 为离群点实例的数量,它们的和为。优化具有对比损失的编码器并动态更新具有编码特征的存储单元,其中更新公式定义为
(4) |
式中:为特征存储单元;为存储单元中更新样本特征的动量系数,经验设置为0.2。
在运用了特征存储单元、解决了无监督任务中类别数目不断变化问题的基础上,本文考虑噪声优化问题。文献[
(5) |
式中:f表示样本;为类别总数;为常数;k为类别数。
(6) |
式中表示第个样本伪身份的one‑hot向量。
定义将分配给类的概率为且,经过softmax归一化后的的第个元素为,则为
(7) |
(8) |
当类标签为第k类时,即时,
(9) |
为了方便,定义
(10) |
对
(11) |
由
(12) |
式中是用于控制权重的参数,取值区间为[0,1]。
在联合损失函数中,前者利于模型的收敛,后者用于减少聚类噪声对模型的影响。在如
本文在行人重识别领域常用的两个大规模公开数据集DukeMTMC‑ReID和Market‑1501上进行验证,两个数据集采集地不同,有着不同的拍摄条件。
数据集 | 训练集图片数/张 | 训练集人数/个 | 测试集图片数/张 | 测试集人数/个 | 相机数量/个 |
---|---|---|---|---|---|
DukeMTMC‑ReID | 16 522 | 702 | 17 661 | 702 | 8 |
Market‑1501 | 12 936 | 751 | 19 732 | 750 | 6 |
本文所有实验均在PyTorch上进行,使用单个GTX 2080TI GPU训练大约需要3 h。在实验中,采用在ImageNet数据集上预训练的ResNet‑50作为主干来提取特征,移除了pooling‑5层的后续层,并添加了批量归一化层和L2归一化层。同时所有图像在输入网络之前都被调整为256像素×128像素,对于训练图像,执行随机裁剪、随机翻转和随机擦除等策略。本文使用DBSCAN与k个最近邻进行聚类,其中邻居间最大距离d=0.6,k=30。训练的epoch设置为80,初始学习率设置为0.000 35,每20个epoch 后降为先前值的1/10,批量大小设置为64。
为了进一步验证方法的有效性,本文将实验结果与目前较为先进的无监督行人重识别方法对比,如
方法 | DukeMTMC‑ReID | Market‑1501 | ||||||
---|---|---|---|---|---|---|---|---|
mAP | Rank‑1 | Rank‑5 | Rank‑10 | mAP | Rank‑1 | Rank‑5 | Rank‑10 | |
SSL(CVPR20 | 28.6 | 52.5 | 63.5 | 68.9 | 37.8 | 71.7 | 83.8 | 87.4 |
JVTC(ECCV20 | 42.2 | 67.6 | 78.0 | 81.6 | 41.8 | 72.9 | 84.2 | 88.7 |
HCT(CVPR20 | 50.7 | 69.6 | 83.4 | 87.4 | 56.4 | 80.0 | 91.6 | 95.2 |
SpCL(NeurIPS20 | 65.3 | 81.2 | 90.3 | 92.2 | 73.1 | 88.1 | 95.1 | 97.0 |
IICS(CVPR21 | 64.4 | 80.0 | 89.0 | 91.6 | 72.9 | 89.5 | 95.2 | 97.0 |
CAP(AAAI21 | 67.3 | 81.1 | 89.3 | 91.8 | 79.2 | 91.4 | 96.3 | 97.7 |
CACL(Arxiv21 | 69.9 | 83.3 | 91.5 | 94.1 | 80.9 | 92.7 | 97.4 | 98.5 |
本文方法 | 71.9 | 85.9 | 92.1 | 94.1 | 81.7 | 92.5 | 96.7 | 98.0 |
为了验证本文提出模型的有效性,本文在两个大规模的公开数据集DukeMTMC‑ReID和Market‑1501上展开实验:(1) Han


模型 | DukeMTMC‑ReID | Market‑1501 | ||
---|---|---|---|---|
mAP | Rank‑1 | mAP | Rank‑1 | |
Baselin | 69.2 | 83.1 | 78.9 | 91.7 |
Baseline+CADM | 70.6 | 83.9 | 80.0 | 91.7 |
Baseline+DSCL | 69.8 | 83.8 | 79.7 | 91.8 |
Baseline+Ge | 69.5 | 83.2 | 80.7 | 92.2 |
Baseline+DSCL+ CADM+GeM | 71.9 | 85.9 | 81.7 | 92.5 |
在联合损失训练策略中,

图6 DukeMTMC‑ReID上对mAP和Rank‑1的影响
Fig.6 Effect of on Rank‑1 and mAP in DukeMTMC‑ReID
在基于聚类的无监督任务中,随着模型的训练,目标为生成的伪标签越来越靠近真实标签。因此,本文分析聚类过程中生成伪标签的数量变化过程。

图7 伪标签类别数量变化
Fig.7 Changes in the number of pseudo‑label categories
本文在基于聚类的无监督行人重识别框架基础上对现有的算法进行研究和改进。为了在聚类过程中减少噪声的影响,本文通过考虑相机内和相机间的样本对,应用相机感知距离矩阵,减弱相机因素带来的偏差。基于噪声标签学习,提出一种对噪声鲁棒的损失函数,有利于减少标签噪声造成的误差积累,减轻负面影响。经实验结果分析,本文提出的基于相机感知距离矩阵的无监督行人重识别模型能够有效地提升识别效果。未来工作将继续关注行人重识别,在现有方法基础上考虑针对特征存储单元的改进,进一步提升重识别模型的性能。
参考文献
李梦静,吉根林,赵斌.基于步行周期聚类的视频行人重识别关键帧提取算法[J].南京航空航天大学学报,2021,53(5): 780-788. [百度学术]
LI Mengjing, JI Genlin, ZHAO Bin. Key frame extraction algorithm for video-based person re-identification based on walking cycle clustering[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2021,53(5): 780-788. [百度学术]
罗浩,姜伟,范星,等.基于深度学习的行人重识别研究进展[J].自动化学报,2019,45(11): 2032-2049. [百度学术]
LUO Hao, JIANG Wei, FAN Xing, et al. A survey on deep learning based person re-identification[J]. Acta Automatica Sinica, 2019,45(11): 2032-2049. [百度学术]
夏道勋,郭方,刘浩杰,等.开放式行人再识别研究进展综述[J].数据采集与处理,2021,36(3): 449-467. [百度学术]
XIA Daoxun, GUO Fang, LIU Haojie, et al. Review on research progress of open-world person re-identification[J]. Journal of Data Acquisition and Processing, 2021,36(3): 449-467. [百度学术]
胡彬,杨铖,邵叶秦,等.基于视频的行人再识别[J].南京航空航天大学学报,2019,51(5): 669-674. [百度学术]
HU Bin, YANG Cheng, SHAO Yeqin, et al. Video-based person re-identification[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2019,51(5): 669-674. [百度学术]
郝玲,段继忠,庞健. 基于难样本混淆增强特征鲁棒性的行人重识别[J].数据采集与处理, 2022, 37(1): 122-133. [百度学术]
HAO Ling, DUAN Jizhong, PANG Jian. Person re-identification based on hard negative sample confusion to enhance robustness of features[J]. Journal of Data Acquisition and Processing, 2022, 37(1): 122-133. [百度学术]
曹亮,王洪元,戴臣超,等.基于多样性约束和离散度分层聚类的无监督视频行人重识别[J].南京航空航天大学学报, 2020, 52(5): 752-759. [百度学术]
CAO Liang, WANG Hongyuan, DAI Chenchao, et al. Unsupervised video⁃based person re⁃identification based on diversity constraint and dispersion hierarchical clustering[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2020, 52(5): 752-759. [百度学术]
GE Yixiao, CHEN Dapeng, ZHU Feng, et al. Self-paced contrastive learning with hybrid memory for domain adaptive object re-ID[J]. Advances in Neural Information Processing Systems, 2020, 33: 11309-11321. [百度学术]
HAN Xumeng, YU Xuehui, JIANG Nan, et al. Group sampling for unsupervised person re-identification[EB/OL]. (2023-05-16). https://arxiv.org/abs/2107.03024. [百度学术]
ZHONG Zhun, ZHENG Liang, LI Shaozi, et al. Generalizing a person retrieval model hetero-and homogeneously[C]//Proceedings of the European Conference on Computer Vision. Munich, Germany: Springer, 2018: 172-188. [百度学术]
XUAN Shiyu, ZHANG Shiliang. Intra-inter camera similarity for unsupervised person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE Press, 2021: 11926-11935. [百度学术]
WANG Menglin, LAI Baisheng, HUANG Jianqiang, et al. Camera-aware proxies for unsupervised person re-identification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2021: 2764-2772. [百度学术]
SHU Jun, XIE Qi, YI Lixuan, et al. Meta-weight-net: Learning an explicit mapping for sample weighting[J]. Advances in Neural Information Processing Systems, 2019, 172: 1919‑1930. [百度学术]
CHENG Hao, ZHU Zhaowei, LI Xingyu, et al. Learning with instance-dependent label noise: A sample sieve approach[EB/OL]. (2021-05-22)[2022‑03‑21]. https://arxiv.org/abs/2010.02347v2. [百度学术]
Lee K H, He Xiaodong, Zhang Lei, et al. Cleannet: Transfer learning for scalable image classifier training with label noise[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE Press, 2018: 5447-5456. [百度学术]
VAHDAT A. Toward robustness against label noise in training deep discriminative neural networks[J]. Advances in Neural Information Processing Systems, 2017, 30: 5601-5610. [百度学术]
GHOSH A, KUMAR H, SASTRY P S. Robust loss functions under label noise for deep neural networks[C]//Proceedings of the AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI Press, 2017. [百度学术]
WANG Yisen, MA Xingjun, CHEN Zaiyi, et al. Symmetric cross entropy for robust learning with noisy labels[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, Korean: IEEE Press, 2019: 322-330. [百度学术]
ZHANG Zhilu, SABUNCU M. Generalized cross entropy loss for training deep neural networks with noisy labels[J]. Advances in Neural Information Processing Systems, 2018, 31: 8792-8802. [百度学术]
ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. Portland Oregon: AAAI Press, 1996: 226-231. [百度学术]
ZHONG Zhun, ZHENG Liang, CAO Donglin, et al. Re-ranking person re-identification with k-reciprocal encoding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE Press, 2017: 1318-1327. [百度学术]
LIN Yutian, XIE Lingxi, WU Yu, et al. Unsupervised person re-identification via softened similarity learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE Press, 2020: 3390-3399. [百度学术]
LI Jianing, ZHANG Shiliang. Joint visual and temporal consistency for unsupervised domain adaptive person re-identification[C]//Proceedings of European Conference on Computer Vision. Glasgow, UK: Springer, 2020: 483-499. [百度学术]
ZENG Kaiwei, NING Munan, WANG Yaohua, et al. Hierarchical clustering with hard-batch triplet loss for person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE Press, 2020: 13657-13665. [百度学术]
LI Mingkun, LI Chunguang, GUO Jun. Cluster-guided asymmetric contrastive learning for unsupervised person re-identification[J]. IEEE Transactions on Image Processing, 2022, 31: 3606-3617. [百度学术]
Lee C Y, Gallagher P W, Tu Z. Generalizing pooling functions in convolutional neural networks: Mixed, gated, and tree[C]//Proceedings of the 19th International Conference on Artificial Intelligence and Statistics. Cadiz, Spain: IEEE Press, 2016: 464-472. [百度学术]