type
status
date
slug
summary
tags
category
icon
password
Last edited time
Oct 20, 2024 04:45 PM
视觉大模型的诞生背景 发展历程回顾 未来趋势展望 我们的工作
讲者简介:
于俊清(1975-),男,博士,教授,博士生导师,国家一流(线下)本科课程负责人、国家精品课程和国家精品共享课负责人,湖北省优秀基层教学组织负责人,华中科技大学本科和研究生课程责任教授、华中科技大学计算机科学与技术学院智能媒体计算与网络安全研究团队负责人。2002年6月在武汉大学获得计算应用技术专业工学博士学位,2002.8-2003.5加拿大曼尼托巴大学学习,2003.8至今在华中科技大学任教。现任华中科技大学副校长,中国教育科研网华中地区网络中心主任、中国图学学会常务理事、中国图学学会动漫图学工程专业委员会主任。2010-2023年期间,曾先后担任华中科技大学网络与计算中心主任、网络与信息化办公室主任、财务处长,国有资产管理办公室主任和总务后勤处处长。
长期从事计算机网络、视频智能分析与搜索、多核计算与流编译、教育信息化等领域的研究工作。近年来,主持完成了包括国家重点研发计划、国家科技支撑计划、国家863计划、国家自然科学基金、中国博士点基金、湖北省杰出青年基金在内的多项科研课题;在TPAMI、TPDS、TMM、CVPR、NeurIPS、ICCV、AAAI、ISCA、CGO、ECCV、ICMR、TCSVT、JPDC、Computer Network等重要会议和期刊上发表论文200余篇,出版教材1本、专著3本、译著1本,授权发明专利和软件著作权60余项,2021年入选高校计算机专业优秀教师奖励计划(中国教师发展基金会),获得湖北省科技进步奖2项、湖北省教学成果奖1项、日内瓦国际发明奖1项、学校教学成果一等奖和青年教师教学竞赛一等奖等多项科研和教学奖励,在中国大学慕课开设在线课程《数字电路与逻辑设计》和《搜索引擎技术基础》,在学堂在线开设《多媒体基础》。
📝 主旨内容
视觉大模型的诞生背景
发展历程回顾
纯视觉大模型
DINO(self-distillation with no labels)无标签的自蒸馏
Local views
: 即局部视角,也称为 small crops,指的是抠图面积小于原始图像的 50%;
Global views
: 即全局视角,也称为 large crops,指的是抠图面积大于原始图像的 50%;
- 在 DINO 中,学生模型接收所有预处理过的 crops 图,而教师模型仅接收来自 global views 的裁剪图。据作者称,这是为了鼓励从局部到全局的响应,从而训练学生模型从一个小的裁剪画面中推断出更广泛的上下文信息。
视觉-文本模型
视觉大模型连接大语言模型:线性层,适配器,Q-Former
视觉生成模型
未来趋势展望
垂直领域大模型
通用入口+垂直领域视觉大模型
通用的视觉大模型
我们的工作
垂直领域
因为你真正在这个工业场景里,它的背景相对固定,他的这个不安全行为应该是偏少。但是我们用大数据,用深度学习的时候发现了所谓的正常人,就是这些不安全行为我们要来找到是非常少的。所以说我们那个时候怎么办呢?我们就这个设计场景,让我们的学生和老师以及电厂里面的工作人员要去把各种不安全性的给它演出来,然后做的数据。但是你看现在我们大模型出来以后就可以得懂我用这种方式了,就解决了我们很多小样本不足。这一块,目前我们使用这个大模型构架不安全行为的一个理解,可以动态识别长,取得不错的效果。
视觉生成模型
🤗 总结归纳
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/Current-status-and-future-of-visual-large-models
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章