type
status
date
slug
summary
tags
category
icon
password
Last edited time
Mar 26, 2024 08:49 PM
😀
大语言模型进行逻辑推理,大视觉模型进行空间推理,二者进行共同决策
notion image
notion image

📝 主旨内容

背景——Sora和左右脑理论

💡
Sora: 物理世界的模拟器(能够补充经文本信息训练的大语言模型的不足)
notion image
💡
重要理论:左脑它其实是负责这个逻辑层面的思考,主要是用来处理language就是语言的信息(LLM-GPT4)。然后右脑是其实是用来处理空间推理,还有想象力的一个视觉的信息(LVM)
notion image

方法——VLP(Vison-Language Planning)

💡
传统:图片被对齐到语言空间,最终由LLM进行决策 VLP:图片和文本分别由LVM和LLM进行处理,经过Plan(思维链)后最终由LMM(大型多模态模型)进行决策
思维链COT(chain of thought)
  • Language Plan: 将问题分解成子问题
  • Vision Plan: 生成(推理)出更多图片
Q:如果数据的输入不是多模态的呢?A:利用现有模型进行预处理
  • 仅文本:文生图,文生视频
  • 仅视觉:图生文,视频理解等
notion image
💡
视频生成模型:Stable Video Diffusion会生成多张预测的帧,进过GPT粗筛(生成帧是否和待解决的问题有关),如果是则进入精筛
Q: 这个人还能用杯子做什么?
Vision:
  • 这个问题是关于潜在的未来行动或替代方案或状态的查询吗?
Text:
  1. 杯子还能有哪些额外的功能或用途?
  1. 视频中显示的情境下,人还能以什么其他方式使用这个杯子?
  1. 这个人如何创意地重新利用或修改这个杯子以用于其他用途?
notion image
💡
选择器:粗筛+精筛(选择最具有代表性的帧进行后续的推理,是否对该问题的回答有帮助)
notion image

结果

驾驶场景下在一个十字路口,有一个人在马路一侧已经迈开步子准备过马路了,我们应该往前开还是应该停下来?
  1. 当前场景的背景是什么?
  1. 汽车上有哪些可见的提示或指示器?
  1. 根据道路规则和驾驶员行为可能采取哪些行动?
notion image

🤗 总结归纳

利用视觉生成模型对原有模型加入了对物理世界的推理,辅助大语言模型进行决策
对视觉生成模型需要具备以下几点
  1. 合理性 (Reasonable):生成的视频内容必须符合自然规律和逻辑,应避免出现不合常理的异常角度,以确保视频内容的真实性和可信度。
  1. 时长 (Long enough):视频生成的时长应足够长。这是因为短时间的视频往往内容重复性高,相邻帧之间差异不大,难以提供足够的额外信息。而较长的视频能够展示更多的变化和信息,有助于模型捕捉到更多的细节和动态,从而做出更好的决策。
  1. 信息量 (Informative):生成的视频应具有丰富的信息量。一些视频可能只是简单的镜头移动,并没有提供有效的信息。为了辅助决策,生成的视频应该包含有助于理解和分析的信息,而不仅仅是无意义的画面变化。

📎 参考文章

 
LightNet: 多模态工业异常检测轻量化网络LLLM——长上下文大语言模型
Loading...