type
status
date
slug
summary
tags
category
icon
password
Last edited time
May 13, 2024 09:09 PM
😀
Transform, Bert, Vit, CLIP, BLIP, BLIP2
 

📝 主旨内容

注意力机制

notion image
notion image

自注意力机制

notion image
notion image

Multi-Head Attention 多头自注意力机制

💡
多头注意力就是对同样的Q, K, V求多次注意力,得到多个不同的output,再把这些不同的output连接起来得到最终的output。
💡
多头注意力允许模型共同关注来自不同位置的不同表示子空间的信息。
💡
不同头部的output就是从不同层面(representation subspace)考虑关联性而得到的输出。
notion image
notion image
notion image

Transformer: Attention Is All You Need

notion image

Bert

双向 + transformer
notion image
 
notion image
  • Token Embeddings是词向量,第一个单词是CLS标志,可以用于之后的分类任务
  • Segment Embeddings用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务
  • Position Embeddings和之前文章中的Transformer不一样,不是三角函数而是学习出来的
 
预训练任务
  1. 完形填空 Masked Language Model
  1. 上下文判断 Next Sentence Prediction

VIT: 一张图只值16*16的单词

notion image
当拥有足够多的数据进行预训练的时候,ViT的表现就会超过CNN,突破transformer缺少归纳偏置的限制,可以在下游任务中获得较好的迁移效果
但是当训练数据集不够大的时候,ViT的表现通常比同等大小的ResNets要差一些,因为Transformer和CNN相比缺少归纳偏置(inductive bias),即一种先验知识,提前做好的假设。CNN具有两种归纳偏置,一种是局部性(locality/two-dimensional neighborhood structure),即图片上相邻的区域具有相似的特征;一种是平移不变形(translation equivariance), f(g(x))=g(f(x)) ,其中g代表卷积操作,f代表平移操作。当CNN具有以上两种归纳偏置,就有了很多先验信息,需要相对少的数据就可以学习一个比较好的模型

CLIP: 开山之作

💡
图文匹配,图文互检
notion image
💡
zero shot
notion image

BLIP: 统一生成和理解任务

notion image
💡
数据清洗
notion image

BLIP2: 向大模型借力,仅需训练图片表征

notion image
notion image
notion image
VisualGLM-6B
THUDMUpdated May 14, 2024
notion image

🤗 总结归纳

 

📎 参考文章

 
基于GAN完成小样本下的奖杯生成任务蚂蚁春招实习笔试题解(0511)
Loading...