Go开发者的涨薪通道:自主开发 PaaS 平台核心功能含资料

#1

download:Go开发者的涨薪通道:自主开发 PaaS 平台核心功能含资料

1 .简介
本文主要研究跨模态行人再识别问题。Re-ID的目标是从数据库中检索相关人的图像。现实世界中的身份识别系统有时需要日夜识别同一个人。为此,需要使用两种不同的设备:白天使用RGB摄像头,晚上使用红外(IR)摄像头。当查询和图库图像来自不同模式时,明显的模式差异是最突出的挑战。本文试图通过解决模态差异来提高跨模态识别的效果。从度量学习的角度来看,re-ID的主要目的是学习一个* 类内紧致 *类间分离的嵌入空间。基于深度分类的学习基线是用于身份识别和人脸识别任务的流行方法。在训练过程中,它将所有具有相同ID的特征拉至相应的代理(即分类层中的权重向量)。
当这个基线应用于跨模态re-ID时,作者发现模态差异显著阻碍了类内紧凑性,如图1 (a)所示。在基线中,不管其底层模式如何,具有相同ID的所有实例共享一个代理。与模式无关的代理试图适应IR和RGB特性,并充当它们之间的中间中继。这种中继效应导致对模式差异的相当大的容差。从图1 (a)中的t-SNE可视化中可以观察到,两种模式的特征之间存在明显的模式差异。具有不同ID的相同模态的特征比具有相同ID的不同模态的特征更接近。例如,ID116和ID119的类间距离小于ID-116的类内距离。

为了抑制模态差异,作者提出了一种记忆增强的单向度量学习方法(MAUM),该方法有两个新颖的设计:(1)学习单向度量;(2)用记忆库增强。
首先,我们学习了两个单向指标(“IR”到“RGB”和“RGB”到“IR”)来缓解基线的中继效应。MAUM为每个ID学习两个特定的模态代理(MS-proxy ),如图1 (b)所示。RGB(IR)代理只接收来自RGB(IR)特征的梯度,因此它们可以用于表示特殊模式。然后,冻结它们并使用RGB代理作为静态参考来提取IR特征,反之亦然。这两个单向指标促进了更好的跨模态相关性。
其次,这两个单向指标通过基于记忆的增强得到进一步强化。每次迭代后,MAUM将IR和RGB代理存储在它们各自的记忆库中。由于MS代理不断迭代变化(即“漂移”现象),每个ID在存储体中都有多个不同的IR和RGB代理,如图1(b)所示。一些历史MS-proxy(与最新MS-proxy相比)距离模态边界更远,因此对相应的模态特征具有更强的“放大”效应。总之,记忆库通过使阳性样本难以区分来增强MAUM,从而促进跨模态相关。作者指出,基于记忆的学习揭示了MAUM未知但重要的潜力。具体来说,作者用“漂移”来增强参考性。相比之下,以前的研究认为“漂移”会带来负面影响,并试图避免。如图1(b)所示,具有相同ID的特征分布紧密,这表明模态差异被抑制。例如,如图1(a)所示,ID-116的类内嵌入明显比基线更紧凑。
除了有效地减少模态差异之外,所提出的MAUM在模态不平衡的情况下也具有特殊的优势。在训练数据中,由于人在夜间活动较少,红外图像通常比RGB图像更稀少,红外图像的标注难度更大。在MAUM中,单向测量和基于记忆的增强是基于特定模式的,并且在IR代理上的增强独立于在RGB代理上的增强,反之亦然。因此,MAUM可以重新平衡红外和RGB模式的增强。通过增益再平衡,弥补了红外图像的不足,对模态不平衡具有鲁棒性。
作者的主要贡献总结如下:
(1)针对跨模态识别问题,提出了一种新的记忆增强的单向度量学习方法。它在两个单向方向上学习明确的跨模态度量,并通过基于记忆的增强进一步增强;
(2)考虑了模态不平衡,这是跨模态识别中一个重要的实际问题。通过调整特定模式的增益,MAUM对模式不平衡表现出很强的鲁棒性。
(3)综合评价了模态平衡和模态不平衡条件下的方法。实验结果表明,MAUM在两种情况下都能显著提高跨模态re-ID的性能,明显优于现有方法。
2.相关著作
2.1跨模态测量学习
首次研究了异构人脸识别中的跨模态问题。这些早期的作品都使用了与模态无关的代理来加强类内的紧密性。RGB受侵犯的跨模态行人再识别首次引入行人再识别中的跨模态问题,并逐渐引起再识别界的关注。与本文最接近的工作是通过模态感知的协作集成学习进行跨模态的人重新识别,这与作者的方法类似,也使用了特定的模态分类层。但是,这两种方法之间存在显著差异。他们使用特定模态分类器的集成来生成用于协作集成学习的增强教师模型;MAUM使用模态特定分类器来学习模态特定代理,这些代理在收敛后是固定的,并用于学习单向指示器。
2.2基于记忆的学习
记忆库广泛应用于监督、半监督和无监督系统。在半监督学习中,利用记忆库获取历史预测的时间集,加强了未标记样本的最新预测与时间集的一致性。无监督学习的两个重要研究成果(MOCO和监督测量学习(XBM))在使用记忆库方面有相似的动机。具体来说,MOCO增加了存储密钥的数量,以便更好地进行比较研究;XBM通过存储历史特征来提高疑难案例挖掘的效果。他们都受益于记忆银行增加负面特征。
在基于记忆学习的背景下,作者指出MAUM的新颖之处在于一种新的跨模态度量学习机制。在MAUM,记忆银行的好处不是因为时间一致性(如半监督学习)或更多的负样本(如MOCO和XBM)。MAUM受益于模型漂移,帮助MAUM获得难以区分的正样本参考,促进跨模态关联。此外,MAUM将代理存储在记忆银行中,这可以视为测量学习任务的一种新的模型扩展。相比之下,以前的工作只存储特征向量。
2.3不平衡数据的学习
数据不平衡是深度学习中的一个重要挑战。以往的研究多集中在类别不平衡上,解决方法主要有两种,即重采样和重新加权。重采样是指在训练中对少数类(少量样本)进行过采样,对高频类(大量样本)进行欠采样,以平衡每次迭代中的头尾数据。加权指的是在损失函数中为不同类别甚至不同样本分配自适应权重。
注意到跨模态任务中有一个独特的数据不平衡问题,即模态不平衡。模态不平衡是指一种模态比另一种模态包含更多样本的情况。在MAUM,对特定模式的增强是分开的,允许对特定模式的独立增强,这使得MAUM对模式不平衡更鲁棒。
3.方法
3.1 MAUM
MAUM的框架如图2所示。MAUM使用ResNet50作为主干,并接受RGB和IR图像作为输入。MAUM将第一卷积块分成两个独立的分支,以适应特定模式的低级特征形式,一个用于RGB,另一个用于IR。为了提高计算效率,两种模式共享所有卷积模块。对于卷积特征映射,MAUM使用全局平均池(GAP)来为每个输入图像生成深度嵌入。基于这种常用的主干设置,提出的MAUM着重于其记忆增强的新的单向测量学习方法。

3.1.5具有组件特征的MAUM
特性通常可以提高视觉重识别和跨模态重识别的性能。为了验证MAUM与分量特征兼容,作者引入了一种基于分量特征的变体,即Maum P,这种变体将最后的卷积特征图按照一个简单的分量特征基线平均分成六个分量特征。在训练过程中,每个组成部分都有自己的监督。在测试过程中,所有六个组件特征被串联以形成最终的表示。
3.2模式失衡情景下的MAUM
在跨模态re-ID中,红外图像通常比RGB图像稀缺,导致模态不平衡,红外图像更难标注。当模态不平衡达到极限时,一些id可能只有一个模态(例如只有RGB)。我们把这两种情况定义为:(1)模态不平衡场景,每个ID有两种形态,红外图像比RGB图像少;(2)情态片断情景,有些id只有一个情态,而有些则有两个情态。
MAUM是第一个在跨模态研究中考虑模态不平衡的人。实验表明,模态不平衡显著降低了re-ID的精度。在MAUM,由于增强是基于两种特定模式的记忆库,它们之间的比例可以灵活调整,以弥补红外图像样本的不足。因此,MAUM对模式失衡是稳健的。
3.3机理分析
本文分析了MAUM记忆增强的机制。作者指出记忆库中积累的代理漂移是单向度量学习增强的原因。
当我们在两个不同的训练迭代中观察具有相同ID的代理时,两个观察结果自然是不同的。对于定量分析,同一药剂的两次观察值之间的差异被定义为药剂漂移,如公式(4)。

6.摘要
本文提出了一种用于跨模态识别的单向测量学习方法MAUM。MAUM有两个优点:(1) MAUM不使用模式无关的代理作为两个模态之间的中间中继,而是强制使用两个单向度量的显式跨模态关联;(2)通过探索模型漂移的潜力,MAUM通过基于记忆的增强进一步加强了跨模态相关性。结合这两个优点,MAUM显著地抑制了模态差异,提高了跨模态识别的能力。另一个贡献是将模态不平衡问题引入到跨模态re-ID社区中,并证明了MAUM在该问题中具有较高的鲁棒性和优越性。
在MAUM,使用两种特定模式的存储体来存储MS-proxy。虽然这些代理没有梯度,但仍然需要一些内存和计算开销来存储和使用它们。当训练集很大时,如工业数据集,其内存和计算开销不可忽略。如何优化内存和计算开销将是未来工作的重点。