type
status
date
slug
summary
tags
category
icon
password
Last edited time
Mar 16, 2024 07:01 AM
Sora,华为难题,高低频噪声
📝 主旨内容
Sora——常识+直觉构建的世界模拟器
Diffusion Transformer(DiT),其中的 Transformer 架构利用对视频和图像潜在代码的时空 patch 进行操作。
将视觉数据转化为时空patch
视频压缩网络
我们训练了一个网络,用于降低视觉数据的维度。这个网络将原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间内接受训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。
扩展Transformer用于视频生成
Sora是一个扩散模型;给定输入的噪声块(和像文本提示这样的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个扩散变换器。变换器在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展属性。
文本→视频→摄像头
华为难题
不需要精确定位
不定位≠不知道异常在哪(示例:左图为
Ground True
,右图为预测结果)不需要区分异常类型
- 异常类型是人为指定的
- 异常是无法穷尽的
- 只要属于确切的某一类异常就一定是异常,反之不然
高低频噪声
simplenet.py 487~493行
🤗 总结归纳
awesome-industrial-anomaly-detection
M-3LAB • Updated Nov 7, 2024
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/meeting-2024-02-22
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。