type
status
date
slug
summary
tags
category
icon
password
Last edited time
Oct 20, 2024 04:42 PM
深度学习方法回顾 视觉融合简介 大模型视觉融合 小模型视觉融合
讲者简介:吴小俊,江南大学二级教授、博导、科研院院长,从事模式识别与人工智能方面的研究,完成包括国防973子课题、IEEE智慧城市国际合作项目、国家自然科学基金和教育部重大科研课题的研究。2006年教育部新世纪优秀人才、江苏省333工程领军人才。在国内外表学术论文200余篇,其中SCI论文60余篇、EI论文100余篇,出版学术著作5本(一本英文专著,CRC出版)。研究成果获得省部级以上奖励5项,其中包括IETE Gowri Memorial Award 、2011年教育部科技进步一等奖、合作者Josef Kittler院士获2015江苏省科学技术奖国际科技合作奖和2016中国政府友谊奖;主持国家精品课程《人工智能概论》和国家双语示范课程《人工智能》的建设工作,是计算机科学与技术国家特色专业点建设负责人和江苏省高校科技创新团队负责人。曾在英国、法国和港澳台地区留学和学术访问。曾担任多个国际和国内学术会议主席。现任IEEE智慧城市指导委员会委员、国际期刊International Journal of Computer Mathematics(SCI)和Journal of Algorithm and Computational Technology(EI)、Frontiers in Neurorobotics(SCI)、数据科学与应用国际期刊编委。教育部计算机类教学指导委员会委员、中国航空学会信息融合专委会委员、省人工智能学会副理事长、省系统工程学会副理事长、省计算机学会学术工委会副主任和无锡市计算机学会理事长等职。
📝 主旨内容
深度学习方法回顾
我组里面的冯振华教授提出了一个叫WIN ross,这个是一个对深度神经网络普遍适用的这样的一个数字函数。我们在座的老师和同学,如果你有兴趣的话,把你现在用的,比如说交叉熵替换为我们的wing loss,可能会得到非常好的性能。这个你可以去试一下,我们因为论文和源码都是对外公开的,在CVPR上。
AdaptiveWingLoss
protossw512 • Updated Oct 14, 2024
《Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks》这篇论文提出了一个新的损失函数——Wing Loss,用于改善基于卷积神经网络(CNN)的面部标记定位的鲁棒性。论文首先对比和分析了几种不同的损失函数,包括L2、L1和平滑L1损失函数。研究表明,在训练CNN用于面部标记定位的模型时,应该更多地关注小范围和中等范围的错误。
Wing Loss是一种分段式损失函数,它通过从L1损失切换到修改过的对数函数来放大(-w, w)区间内的误差的影响。为了解决训练集中大角度头部旋转样本数量不足的问题,作者提出了一种简单但有效的策略,称为基于姿态的数据平衡。具体来说,通过复制少数训练样本并通过注入随机图像旋转、边界框平移等数据增强方法来处理数据不平衡问题。
此外,这个方法被扩展到一个两阶段的框架中,用于更稳健的面部标记定位。通过在AFLW和300W数据集上的实验结果证明了Wing Loss函数的优点,并证实了该方法相比于现有最先进方法的优越性。
总的来说,这篇论文提出的Wing Loss通过专注于小到中等范围的错误,并通过使用分段损失函数和数据平衡策略来提高面部标记定位的准确性和鲁棒性。
视觉融合简介
大模型视觉融合
GAN+Transform实现红外+可见光融合。通过将各层对齐,融合CNN的邻域建模能力和Transform的全局建模能力
稀疏抽样(长时建模)+密集抽样(短时建模),提出GM(Graph Model),最终进行融合预测
小模型视觉融合
TPAMI:从理论上自动化构建神经网络进行视觉融合
高低频分解+LISTA算法得到最终的Block设计
🤗 总结归纳
- 大模型和小模型在视觉融合中均展现出了良好的性能
- 大模型和小模型的思想和方法论有重要的区别
- 要根据具体的问题选择和设计模型,对视觉融合问题亦然
- AI进入大模型时代,但是大模型的潜能还远没有被完全发掘和利用
- 千万不要丢掉传统的CV,PR和ML!(计算机视觉,机器学习,模式识别)
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/visual-fusion
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章