OWL-ViT: Simple Open-Vocabulary Object Detection with Vision Transform

논문읽기

OWL-ViT: Simple Open-Vocabulary Object Detection with Vision Transform

언시 2025. 2. 15. 13:26

Simple Open-Vocabulary Object Detection with Vision Transformers

Combining simple architectures with large-scale pre-training has led to massive improvements in image classification. For object detection, pre-training and scaling approaches are less well established, especially in the long-tailed and open-vocabulary set

arxiv.org

https://github.com/simmonspark/OWL_HF_IMPL/tree/main

GitHub - simmonspark/OWL_HF_IMPL

Contribute to simmonspark/OWL_HF_IMPL development by creating an account on GitHub.

github.com

- 구현중 2월 15일 ing

summary : VLM, multimodal의 한 종류인데 zero-shot을 통해서 처음 본 사진에 대해서도 객체탐지를 수행할 수 있음.

설명 및 구조 :
- CLIP Architecture

코드 in detail :
- ㅁㄴㅇ

결과 및 고찰 :
우여곡절끝에 어케 규현 하기는 했는데 전처리를 어떻게 하는지 몰라서 허깅페이스 전처리기를 사용함

이번주내로 업데이트 예정

2-14/00시02분

: 너무 어렵다 2주 정도 이것만 하고 있는데 거의 끝났다.

detr을 먼저 볼 걸 그랬다. 결국 DETR을 안 보고 이걸 구현하는건 불가능이고 어떤 분의 깃허브에서 훈련 코드가 있는데 완전 똑똑하게 훈련하는 코드를 발견했다. 내 코드에 해당 훈련 코드를 녹여야겠다.

근데!!!!! 짜증나는게 object detection 분야는 왜 왜 왜 논문에서 대 - 충 DETR 훈련 방법 썼구요. contrastive learning 했구요.. 이정도로 얼렁뚱땅 설명하는지 모르겠다. 욜로도 v5부터 그냥 오픈소스 사용하세요 ^_* 이래서 싫었는데 이번에도 당첨이다. 이번에는 이 악물고 구현할거다.

가장 어려운 부분이 push-pull loss 부분에서 Hungarian algorithm을 개념적으로 알려고 하지 않고 logit map의 tensor handling만 보면서 이해하려 하니까 이게 답이 없었다. 그래서 해당 알고리즘 공부를 하고 다시 보니까 해당 부분을 2시간 정도에 이해할 수 있었다.

디버깅의 흔적인데 이게 얼핏 보면 쉬워보이는데 진짜 헷갈린다 근데?! 실력을 확실히 exponential 하게 오르는 느낌이다.

이번주 일요일 까지는 끝내야겠다.

저작자표시 (새창열림)