type
status
date
slug
summary
tags
category
icon
password
Last edited time
Sep 24, 2024 12:48 PM
这是一个可提示且可交互的开放集物体检测模型,既可以接受文本提示,也可以接受视觉提示(在同一图片或跨多图片的盒子或点)作为物体检测的输入。它具备强大的零次学习物体检测能力,且对各种情景都非常实用,仅需一套权重。
T-Rex
IDEA-Research • Updated Oct 1, 2024
作者来源:南方科技大学,粤港澳大湾区数字经济研究院(IDEA研究院),清华大学,香港科技大学
📝 主旨内容
以前依赖文本提示的开放集物体检测方法有效地封装了常见物体的抽象概念,但由于数据稀缺和描述限制,它们在处理稀有或复杂物体表示上存在困难。相反,视觉提示通过具体的视觉示例表现出对新奇物体的优秀描述能力,但在传达物体的抽象概念上可能不及文本提示的效果。
模型
以DETR为基础框架,通过Deformable Cross Attention(可变形交叉注意力)和CLIP分别引入视觉和文本提示
一些结果
API开放
我们现在开放 T-Rex2 的免费 API 访问。对于教育工作者、学生和研究人员,我们提供具有广泛使用时间的 API 来支持您的教育和研究工作。您可以在此处请求 API。
Install the API package and acquire the API token from the email.
动机
- 图文多模态
- 一类一模型(零/少样本)
- 开集
- 目标检测-异常检测
- 滑动窗口耗时
🤗 总结归纳
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/T-Rex2
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章