type
status
date
slug
summary
tags
category
icon
password
Last edited time
May 23, 2024 04:54 PM
😀
端到端的多模态大模型,高速智能多模态
notion image

📝 主旨内容

能力对比

notion image
notion image

发展简史

CLIP: 连接文本和图像(ICML2021)

notion image

VATT: 多模态自监督下的Transform框架(NeurIPS2021)

notion image

BLIP: 统一生成和理解任务(ICML2022)

notion image

BLIP2: Q-Former让LLM睁开双眼(ICML2023)

notion image

NExT-GPT: 支持全模态输入输出的大语言模型(CoRR2023)

notion image

AnomalyGPT: 大规模视觉语言模型用于工业异常检测(AAAI2024)

notion image

能力提升

💡
GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上实现了新高
notion image
💡
GPT-4o能够从6个生成的图像进行3D重建
notion image
notion image

🤗 总结归纳

notion image
notion image
notion image
notion image
notion image

📎 参考文章

notion image
notion image
notion image
FastGPT——构建你自己的GPTTransformer中的位置编码
Loading...