type
status
date
slug
summary
tags
category
icon
password
Last edited time
Dec 5, 2024 02:57 AM
DINO通过自蒸馏和对比学习,实现无监督高效图像表示,特征在迁移学习和图像检索中表现优异
通过以上可视化结果不难看出,相比于监督学习,DINO 的潜在空间也具有很好的分离类别,这意味着它的特征足够丰富,可以分离物体中的微小差异,这使得它非常适合下游任务和迁移学习
📝 主旨内容
模型架构
视图生成
视图生成是DINO方法中的一个关键步骤,通过生成不同的视图来增加数据的多样性和模型的鲁棒性。具体来说,视图生成包括以下几个方面:
- 数据增强(Data Augmentation):
- 裁剪(Cropping):从原始图像中随机裁剪出不同大小和比例的图像区域。
- 翻转(Flipping):随机水平或垂直翻转图像。
- 颜色抖动(Color Jittering):随机改变图像的亮度、对比度、饱和度和色调。
- 模糊(Blurring):应用高斯模糊等技术模糊图像。
- 灰度转换(Grayscale Conversion):随机将图像转换为灰度图。
- 多尺度视图(Multi-Scale Views):
- 生成不同尺度的图像视图(如大尺度视图和小尺度视图),以捕捉图像中的多层次信息。
这些视图被分别输入到学生模型和教师模型中,用于对比学习和特征提取。
EMA(指数移动平均)的实现
EMA(Exponential Moving Average)在DINO中用于更新教师模型的参数,以确保其稳定性。具体步骤如下:
- 初始化:教师模型的初始参数与学生模型的初始参数相同。
- 更新规则:在每次训练步骤中,教师模型的参数
θ_t
通过学生模型的参数θ_s
的指数移动平均进行更新: 其中, 是一个平滑系数(0 < < 1),通常设置为接近于1(如0.99),以保证更新过程的平滑性。
教师模型指导学生模型的原因
- 稳定性:由于教师模型参数通过EMA进行更新,其变化较为平稳,能够提供稳定的目标特征表示。
- 目标特征一致性:通过EMA更新的教师模型,能够在不同训练步骤中提供一致的目标特征表示,学生模型通过学习这些稳定的特征表示,可以逐步优化自身。
- 增强学习效果:学生模型通过对比学习,学习到的特征表示不断与教师模型提供的目标特征进行比较和调整,这个过程有效地增强了学生模型的学习效果。
DINO模型得出的特征的实际意义
- 无监督特征表示学习:DINO在没有标注数据的情况下,通过自监督学习方法获取高质量的图像特征表示,这对大规模无监督数据集的应用具有重要意义。
- 迁移学习:DINO训练得到的特征表示可以用于迁移学习,将预训练的特征应用到下游任务(如图像分类、目标检测等),提升这些任务的性能。
- 图像检索:DINO生成的特征表示在图像检索任务中表现优异,可以用于高效的图像相似度计算和检索。
- 增强数据多样性:通过多视图生成和对比学习,DINO模型能够学习到更加丰富和鲁棒的图像特征,这对处理复杂和多样化的数据具有重要价值。
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners(CVPR2023)
在Thu-dog数据集中Clip和Dino的特征可视化结果
在异常检测上用作视觉编码器
Multimodal Industrial Anomaly Detection via Hybrid Fusion(CVPR2023)
Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping(CVPR2024)
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection(ECCV2024)
🤗 总结归纳
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/DINO
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章