CVPR 2024 | 创新奇智提出非对称增强自监督学习方法,解决大规模细粒度检索任务


图 1 论文摘要截图
),包括三个模块:非对称增强的SSL模块、面向部件的密集对比学习、自一致哈希码学习。
优于现有方法,确认了其在无监督细粒度图像哈希中的有效性。创新背景
论文的主要贡献
1. 我们首次识别了通用数据集和细粒度数据集在无监督哈希方法中的粒度差距,并解决无监督细粒度图像哈希这一具有挑战性的任务。
2. 我们提出了一种非对称增强的自监督学习方法
(Asymmetric Augmented Self-Supervised Learning),包括三个关键模块,即非对称增强SSL、面向部件的密集对比学习和自一致哈希码学习,专门用于无监督的细粒度哈希码学习。
3. 我们在五个常用的细粒度基准数据集上从定量和定性两个方面进行了全面的实验,结果表明我们提出的方法在这些数据集上取得了出色的检索能力,超越了竞争性解决方案。这进一步证明了我们方法的有效性和实用性。
技术要点

方法主要由三个关键部分组成,即非对称增强SSL、面向部件的密集对比学习和自一致性哈希码学习。在两个分支中的所有参数都是共享的。
创建三种增强视图:锚点视图,正样本视图和负样本视图;锚点视图仅通过Resize操作作用于样本
生成,正样本视图仅通过RandomCrop操作作用于样本
产生,负样本视图则经历两个破坏性增强,即ColorJitter和ElasticTransform操作,以诱导其产生与细粒度对象相关的实质性变化,
面向部件的密集对比学习:使用高斯混合模型
对卷积神经网络输出的深度特征描述子
进行建模,其中,
分别是第K个高斯分量的混合权重、均值向量和协方差矩阵;H和W分别是激活张量的高度和宽度;并计算每个簇对应的部位级原型,随后扩展传统对比学习至部位级密集对比学习,

根据建模参数,计算高阶统计信息,并聚合为Fisher向量得到部位级信息;

其中,
代表软分配,即
由第K个高斯生成的概率;最终的Fisher向量
是从所有K个聚类中的
和
进行拼接得到;为了得到全面的图像表示,通过两个全连接层进行对深度特征T 进行聚合得到图像级信息
,将之与部位级信息
进行组合得到完整的图像表示f,用于生成哈希编码,将部位级信息与卷积神经网络计算得到的全局信息进行结合,即得到完整的图像表示。
自一致哈希学习: 通过编-解码结构将重构任务引入哈希学习,构建自一致性哈希学习模块,使用编码器矩阵W 将f 投影到q维潜在空间,以获得内部潜在表示v;遵循自一致性原则,使用解码器对f进行重构:

其中
表示一个小批量中的图像嵌入,V对应于一个小批量中的潜在表示v;将学习目标通过软约束改写为,


表 1 每个模块的效果
制造业场景相关应用
CVPR 2024 | 创新奇智提出非对称增强自监督学习方法,解决大规模细粒度检索任务


图 1 论文摘要截图
),包括三个模块:非对称增强的SSL模块、面向部件的密集对比学习、自一致哈希码学习。
优于现有方法,确认了其在无监督细粒度图像哈希中的有效性。创新背景
论文的主要贡献
1. 我们首次识别了通用数据集和细粒度数据集在无监督哈希方法中的粒度差距,并解决无监督细粒度图像哈希这一具有挑战性的任务。
2. 我们提出了一种非对称增强的自监督学习方法
(Asymmetric Augmented Self-Supervised Learning),包括三个关键模块,即非对称增强SSL、面向部件的密集对比学习和自一致哈希码学习,专门用于无监督的细粒度哈希码学习。
3. 我们在五个常用的细粒度基准数据集上从定量和定性两个方面进行了全面的实验,结果表明我们提出的方法在这些数据集上取得了出色的检索能力,超越了竞争性解决方案。这进一步证明了我们方法的有效性和实用性。
技术要点

方法主要由三个关键部分组成,即非对称增强SSL、面向部件的密集对比学习和自一致性哈希码学习。在两个分支中的所有参数都是共享的。
创建三种增强视图:锚点视图,正样本视图和负样本视图;锚点视图仅通过Resize操作作用于样本
生成,正样本视图仅通过RandomCrop操作作用于样本
产生,负样本视图则经历两个破坏性增强,即ColorJitter和ElasticTransform操作,以诱导其产生与细粒度对象相关的实质性变化,
面向部件的密集对比学习:使用高斯混合模型
对卷积神经网络输出的深度特征描述子
进行建模,其中,
分别是第K个高斯分量的混合权重、均值向量和协方差矩阵;H和W分别是激活张量的高度和宽度;并计算每个簇对应的部位级原型,随后扩展传统对比学习至部位级密集对比学习,

根据建模参数,计算高阶统计信息,并聚合为Fisher向量得到部位级信息;

其中,
代表软分配,即
由第K个高斯生成的概率;最终的Fisher向量
是从所有K个聚类中的
和
进行拼接得到;为了得到全面的图像表示,通过两个全连接层进行对深度特征T 进行聚合得到图像级信息
,将之与部位级信息
进行组合得到完整的图像表示f,用于生成哈希编码,将部位级信息与卷积神经网络计算得到的全局信息进行结合,即得到完整的图像表示。
自一致哈希学习: 通过编-解码结构将重构任务引入哈希学习,构建自一致性哈希学习模块,使用编码器矩阵W 将f 投影到q维潜在空间,以获得内部潜在表示v;遵循自一致性原则,使用解码器对f进行重构:

其中
表示一个小批量中的图像嵌入,V对应于一个小批量中的潜在表示v;将学习目标通过软约束改写为,


表 1 每个模块的效果