type
status
date
slug
summary
tags
category
icon
password
Last edited time
Mar 16, 2024 07:01 AM
😀
只用文本作为prompt真的够吗?
ControlNet
lllyasvielUpdated Jan 11, 2024

📝 主旨内容

效果

notion image

特点

  1. 十几种不同的控制输入:边缘图,分割图,深度图等
  1. 模型可在小数据集上(<50k)上训练,也可在数亿级别的数据上训练
  1. 模型可在在个人的消费级显卡上训练,如RTX 3090Ti。极限情况下可以在RTX 3070Ti上训练
  1. 仅多消耗了23%的显存和34%的训练时间(模型是原来的1.5倍)

模型

💡
零卷积:权值为0的1X1的卷积——初始直接用训练好的权重会加速收敛
💡
随机掩盖掉50%的文本promotion,来更好地学习控制条件
notion image
notion image

冷知识

  1. Stable Diffusion 用的是50亿的LAION数据集训练的
  1. Stable Diffusion 训练需要150000A100小时
 

其他控制输入

 
notion image
notion image
notion image
notion image

为什么还要加入promotion?

💡
控制信息和文本信息相辅相成,但是这两个组合起来可以cover全部情况吗??
notion image
 

🤗 总结归纳

 

📎 参考文章

 
AnomalyDiffusion(AAAI2024)WinCLIP——首次探索零样本异常分类和分割
Loading...