type
status
date
slug
summary
tags
category
icon
password
Last edited time
May 23, 2024 04:54 PM
端到端的多模态大模型,高速智能多模态

📝 主旨内容
能力对比


发展简史
CLIP: 连接文本和图像(ICML2021)

VATT: 多模态自监督下的Transform框架(NeurIPS2021)

BLIP: 统一生成和理解任务(ICML2022)

BLIP2: Q-Former让LLM睁开双眼(ICML2023)

NExT-GPT: 支持全模态输入输出的大语言模型(CoRR2023)

AnomalyGPT: 大规模视觉语言模型用于工业异常检测(AAAI2024)

能力提升
GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上实现了新高

GPT-4o能够从6个生成的图像进行3D重建

.gif?table=block&id=b9fb06bb-03d0-4ee3-9207-8a0af9fb183f&t=b9fb06bb-03d0-4ee3-9207-8a0af9fb183f&width=512&cache=v2)
🤗 总结归纳





📎 参考文章



- 作者:ziuch
- 链接:https://ziuch.com/article/GPT-4omni?target=comment
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章