type
status
date
slug
summary
tags
category
icon
password
Last edited time
Mar 16, 2024 07:01 AM
😀
GPT-4V在多模态、多领域异常检测任务中的应用,包括图像、视频、点云和时间序列数据,跨多个应用领域,如工业、医疗、逻辑、视频、三维异常检测和定位任务。
 
GPT4V-for-Generic-Anomaly-Detection
caoyunkangUpdated Feb 23, 2024
notion image

📝 主旨内容

自然语言,类别信息,人类先验,zero/one-shot

零样本
零样本
单个正常样本
单个正常样本
Regrettably, GPT-4V does not currently have the capability to directly produce prediction masks. Some methods have attempted to leverage GPT-4V by prompting it to provide bounding boxes [101, 97]. However, this approach appears to be imprecise and poses challenges for GPT-4V. In contrast, the approach presented by SoM [100] involves utilizing SAM [50] to generate visual prompts [81, 50], which are presented in numbered markers. This visual prompting technique shifts the localization task from a pixel-level mask prediction task to a mask-level classification task, effectively reducing the associated complexities and increasing localization precision.(遗憾的是,GPT-4V目前还没有能力直接产生预测掩码。一些方法试图利用GPT-4V,促使它提供边界框[101, 97]。然而,这种方法似乎是不精确的,给GPT-4V带来了挑战。相比之下,SoM[100]提出的方法涉及利用SAM[50]来生成视觉提示[81, 50],这些提示以编号标记的形式呈现。这种视觉提示技术将定位任务从像素级的掩码预测任务转移到掩码级的分类任务,有效地减少了相关的复杂性,提高了定位精度。)
异常定位(seg标号)
异常定位(seg标号)

部分实验复现

 
notion image
notion image
notion image
 

细节

实现图像异常定位

SoM提出使用SAM生成视觉提示,这些提示以编号标记的形式呈现。这种视觉提示技术将定位任务从像素级的掩膜预测任务转变为掩膜级的分类任务,有效降低了相关复杂性并提高了定位精度。

点云的输入

采用了CPMF中提出的方法将点云转换成多视角深度图像

上下文的选取

notion image

医学——伦理限制

由于伦理限制,当缺乏足够信息时,GPT-4V 模型倾向于给出保守的答案

🤗 总结归纳

 

📎 参考文章

AnoVL——使用CLIP用于零样本异常定位LLM赋能科研
Loading...