type
status
date
slug
summary
tags
category
icon
password
Last edited time
May 13, 2024 09:09 PM
Transform, Bert, Vit, CLIP, BLIP, BLIP2
📝 主旨内容
注意力机制
自注意力机制
Multi-Head Attention 多头自注意力机制
多头注意力就是对同样的Q, K, V求多次注意力,得到多个不同的output,再把这些不同的output连接起来得到最终的output。
多头注意力允许模型共同关注来自不同位置的不同表示子空间的信息。
不同头部的output就是从不同层面(representation subspace)考虑关联性而得到的输出。
Transformer: Attention Is All You Need
Bert
双向 + transformer
- Token Embeddings是词向量,第一个单词是CLS标志,可以用于之后的分类任务
- Segment Embeddings用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务
- Position Embeddings和之前文章中的Transformer不一样,不是三角函数而是学习出来的
预训练任务
- 完形填空 Masked Language Model
- 上下文判断 Next Sentence Prediction
VIT: 一张图只值16*16的单词
当拥有足够多的数据进行预训练的时候,ViT的表现就会超过CNN,突破transformer缺少归纳偏置的限制,可以在下游任务中获得较好的迁移效果
但是当训练数据集不够大的时候,ViT的表现通常比同等大小的ResNets要差一些,因为Transformer和CNN相比缺少归纳偏置(inductive bias),即一种先验知识,提前做好的假设。CNN具有两种归纳偏置,一种是局部性(locality/two-dimensional neighborhood structure),即图片上相邻的区域具有相似的特征;一种是平移不变形(translation equivariance), f(g(x))=g(f(x)) ,其中g代表卷积操作,f代表平移操作。当CNN具有以上两种归纳偏置,就有了很多先验信息,需要相对少的数据就可以学习一个比较好的模型
CLIP: 开山之作
图文匹配,图文互检
zero shot
BLIP: 统一生成和理解任务
数据清洗
BLIP2: 向大模型借力,仅需训练图片表征
VisualGLM-6B
THUDM • Updated May 14, 2024
🤗 总结归纳
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/multi-modal-review
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章