type
status
date
slug
summary
tags
category
icon
password
Last edited time
Mar 16, 2024 07:01 AM
😀
Sora,华为难题,高低频噪声

📝 主旨内容

Sora——常识+直觉构建的世界模拟器

💡
Diffusion Transformer(DiT),其中的 Transformer 架构利用对视频和图像潜在代码的时空 patch 进行操作。

将视觉数据转化为时空patch

notion image
 
notion image
 

视频压缩网络

我们训练了一个网络,用于降低视觉数据的维度。这个网络将原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间内接受训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

扩展Transformer用于视频生成

Sora是一个扩散模型;给定输入的噪声块(和像文本提示这样的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个扩散变换器。变换器在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展属性。
notion image
notion image
 
文本→视频→摄像头

华为难题

不需要精确定位

💡
不定位≠不知道异常在哪(示例:左图为Ground True,右图为预测结果)
notion image
notion image
notion image

不需要区分异常类型

  1. 异常类型是人为指定的
  1. 异常是无法穷尽的
  1. 只要属于确切的某一类异常就一定是异常,反之不然
notion image
notion image

高低频噪声

simplenet.py 487~493行

🤗 总结归纳

awesome-industrial-anomaly-detection
M-3LABUpdated Nov 7, 2024

📎 参考文章

2024年02月28日周三组会2024年02月08日周四大组会
Loading...