type
status
date
slug
summary
tags
category
icon
password
Last edited time
Mar 16, 2024 07:01 AM
一个模型解决所有类别的异常检测!
📝 主旨内容
这种一类一模型方案可能会消耗内存,尤其是随着类数量的增加,并且对于正常样本表现出较大的类内多样性(即一个对象包括多种类型)。
恒等映射
Layer-wise Query Embedding
我们观察到,transformer中“恒等映射”的问题比MLP和CNN要轻微一些。第一,在transformer中,loss并不会完全降低到0。第二,在transformer中,检测性能和定位性能的下降幅度远小于MLP和CNN。因此,我们认为transformer中必然存在一种结构可以抑制“恒等映射”。经过数学分析和消融实验,我们认为,具有query embedding的attention可以抑制“恒等映射” (分析与实验详见paper)。
但是,现有的transformer网络,一些不具有query embedding (如类似于ViT的),一些只在decoder的第一层有query embedding (如类似于DETR的)。我们希望通过增加query embedding,来增加其抑制“恒等映射”的能力。因此,我们以transformer为基础,提出了Layer-wise Query Embedding,即,在decoder的每一层都加入query embedding。
Neighbor Masked Attention
我们认为,在传统的Attention中,一个token是可以利用自己的信息的,这可能会防止信息泄漏,即,直接将输入进行输出,形成“恒等映射”。因此,我们提出了Neighbor Masked Attention,即,一个token是不能利用自己和自己的邻居的信息的。这样,网络就必须通过更远处的token来理解这个点的信息应该是什么,进而在这个过程中理解了正常样本,拟合了正常样本的分布。
Feature Jittering
受到De-noising Auto-Encoder的启发,我们设计了一个Feature Jittering策略。即,在输入的feature tokens中加入噪声,而重构的目标依然是未加噪声的feature tokens。因此,Feature Jittering可以将重构任务转化为去噪任务。网络通过去除噪声来理解正常样本,并拟合正常样本的分布。同时,恒等映射在这种情况下不能使得loss等于0,也就不是最优解了。
🤗 总结归纳
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/UniAD
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章