type
status
date
slug
summary
tags
category
icon
password
Last edited time
May 23, 2024 04:54 PM
端到端的多模态大模型,高速智能多模态
📝 主旨内容
能力对比
发展简史
CLIP: 连接文本和图像(ICML2021)
VATT: 多模态自监督下的Transform框架(NeurIPS2021)
BLIP: 统一生成和理解任务(ICML2022)
BLIP2: Q-Former让LLM睁开双眼(ICML2023)
NExT-GPT: 支持全模态输入输出的大语言模型(CoRR2023)
AnomalyGPT: 大规模视觉语言模型用于工业异常检测(AAAI2024)
能力提升
GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上实现了新高
GPT-4o能够从6个生成的图像进行3D重建
🤗 总结归纳
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/GPT-4omni?target=comment
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章