type
status
date
slug
summary
tags
category
icon
password
Last edited time
Mar 26, 2024 08:49 PM
大语言模型进行逻辑推理,大视觉模型进行空间推理,二者进行共同决策
📝 主旨内容
背景——Sora和左右脑理论
Sora: 物理世界的模拟器(能够补充经文本信息训练的大语言模型的不足)
重要理论:左脑它其实是负责这个逻辑层面的思考,主要是用来处理language就是语言的信息(LLM-GPT4)。然后右脑是其实是用来处理空间推理,还有想象力的一个视觉的信息(LVM)
方法——VLP(Vison-Language Planning)
传统:图片被对齐到语言空间,最终由LLM进行决策
VLP:图片和文本分别由LVM和LLM进行处理,经过Plan(思维链)后最终由LMM(大型多模态模型)进行决策
思维链COT(chain of thought)
- Language Plan: 将问题分解成子问题
- Vision Plan: 生成(推理)出更多图片
Q:如果数据的输入不是多模态的呢?A:利用现有模型进行预处理
- 仅文本:文生图,文生视频
- 仅视觉:图生文,视频理解等
视频生成模型:Stable Video Diffusion会生成多张预测的帧,进过GPT粗筛(生成帧是否和待解决的问题有关),如果是则进入精筛
Q: 这个人还能用杯子做什么?
Vision:
- 这个问题是关于潜在的未来行动或替代方案或状态的查询吗?
Text:
- 杯子还能有哪些额外的功能或用途?
- 视频中显示的情境下,人还能以什么其他方式使用这个杯子?
- 这个人如何创意地重新利用或修改这个杯子以用于其他用途?
选择器:粗筛+精筛(选择最具有代表性的帧进行后续的推理,是否对该问题的回答有帮助)
结果
驾驶场景下在一个十字路口,有一个人在马路一侧已经迈开步子准备过马路了,我们应该往前开还是应该停下来?
- 当前场景的背景是什么?
- 汽车上有哪些可见的提示或指示器?
- 根据道路规则和驾驶员行为可能采取哪些行动?
🤗 总结归纳
利用视觉生成模型对原有模型加入了对物理世界的推理,辅助大语言模型进行决策
对视觉生成模型需要具备以下几点
- 合理性 (Reasonable):生成的视频内容必须符合自然规律和逻辑,应避免出现不合常理的异常角度,以确保视频内容的真实性和可信度。
- 时长 (Long enough):视频生成的时长应足够长。这是因为短时间的视频往往内容重复性高,相邻帧之间差异不大,难以提供足够的额外信息。而较长的视频能够展示更多的变化和信息,有助于模型捕捉到更多的细节和动态,从而做出更好的决策。
- 信息量 (Informative):生成的视频应具有丰富的信息量。一些视频可能只是简单的镜头移动,并没有提供有效的信息。为了辅助决策,生成的视频应该包含有助于理解和分析的信息,而不仅仅是无意义的画面变化。
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/LLM+LVM
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章