type
status
date
slug
summary
tags
category
icon
password
Last edited time
Mar 16, 2024 07:01 AM
融合CNN的浅层特征和Transform的全局建模特征,再将融合图像与原始图像输入到模态特定判别器
📝 主旨内容
红外判别器使用VGG16的第四层特征来保留更多的显著信息。而可见光判别器使用VGG-16的第一层特征来保留更多的细节信息。
如图所示为转换器的内部结构图,经过处理的图像特征会先进入通道变换器(Channel Transformer)再进入空间变换器(Spatial Transformer)。转换器的主要功能就是学习全局的的信息相关性(图像的长程依赖性),通道变换器学习的是跨维度的信息相关性,空间变换器学习的空间的相关性(同一纬度)。
如图所示为通道变换器的内部结构图,其中p表示补丁大小即分割图像的数量,h表示分割图像的高,w表示分割图像的宽,E是缩小的维度。输入图像经过分割(Split)、张量扁平化操作(Flatten)和多层感知(MLP)后即可送入转换器。输出再经历相同的操作即可重塑出特征得到结果。此操作可以学习跨通道维度的信息相关性(红外光和可见光)。
如图所示为空间变换器的内部结构图,其与通道变换器的内部结构极其相似。唯一的区别是在扁平化操作时,按照不同的方向进行扁平化操作。在空间变换器中,扁平化操作压缩了通道维度,可以在学习对应的空间关系的同时避免其他维度关系的干扰。
🤗 总结归纳
该方法将GAN和Transform相结合,用Transform的方法作为GAN中的生成器来生成图像,用生成器中不同的Transform来保证图像的空间相关性和维度相关性。再通过鉴别器来保证融合图像能够既保留可见图像中的细节又能保证红外图像中的重要信息。对于损失函数来说采用的是改进的SSIM函数作为损失函数,但是感觉这个函数应该只是能优化其结构相关性,感觉可以引入次要的损失函数来优化其他方面,通过调整损失函数的权重来解决不同损失函数冲突的问题。
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/TGFuse
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章