type
status
date
slug
summary
tags
category
icon
password
Last edited time
Mar 16, 2024 07:01 AM
😀
一个模型解决所有类别的异常检测!
 

📝 主旨内容

💡
这种一类一模型方案可能会消耗内存,尤其是随着类数量的增加,并且对于正常样本表现出较大的类内多样性(即一个对象包括多种类型)。
notion image

恒等映射

notion image
notion image

Layer-wise Query Embedding

我们观察到,transformer中“恒等映射”的问题比MLP和CNN要轻微一些。第一,在transformer中,loss并不会完全降低到0。第二,在transformer中,检测性能和定位性能的下降幅度远小于MLP和CNN。因此,我们认为transformer中必然存在一种结构可以抑制“恒等映射”。经过数学分析和消融实验,我们认为,具有query embedding的attention可以抑制“恒等映射” (分析与实验详见paper)。
但是,现有的transformer网络,一些不具有query embedding (如类似于ViT的),一些只在decoder的第一层有query embedding (如类似于DETR的)。我们希望通过增加query embedding,来增加其抑制“恒等映射”的能力。因此,我们以transformer为基础,提出了Layer-wise Query Embedding,即,在decoder的每一层都加入query embedding。

Neighbor Masked Attention

我们认为,在传统的Attention中,一个token是可以利用自己的信息的,这可能会防止信息泄漏,即,直接将输入进行输出,形成“恒等映射”。因此,我们提出了Neighbor Masked Attention,即,一个token是不能利用自己和自己的邻居的信息的。这样,网络就必须通过更远处的token来理解这个点的信息应该是什么,进而在这个过程中理解了正常样本,拟合了正常样本的分布。
notion image

Feature Jittering

受到De-noising Auto-Encoder的启发,我们设计了一个Feature Jittering策略。即,在输入的feature tokens中加入噪声,而重构的目标依然是未加噪声的feature tokens。因此,Feature Jittering可以将重构任务转化为去噪任务。网络通过去除噪声来理解正常样本,并拟合正常样本的分布。同时,恒等映射在这种情况下不能使得loss等于0,也就不是最优解了。

🤗 总结归纳

 

📎 参考文章

 
多模态异常检测数据集MixGen: A New Multi-Modal Data Augmentation
Loading...