AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection (ECCV 2024) 3줄 요약auxiliary data를 통한 adaptation을 진행한다. 실험적으로 알게 된 사실은 데이터에 무관하게 normal data는 비슷한 분포를 따르고, abnormal data는 그 defect class에 맞게 특징적인 분포를 따른다. "벽" 클래스에 해당하는 보조 데이터셋으로 학습했다 가정하면, 매끈한 벽이 normal data일 것이다. 그럼 해당 모델은 매끈한 기판도 normal로 인식 할 것이다. 만약 스크레치가 난 벽이나 기판을 만난다면, CosSim을 통해 defect로 판정할 것이다. dynamic + static learnable prompt가 이미지, 텍스트 임베딩 레이어에 붙는다. 해당 프롬프트는 이미지를 기반으로 생성된다.dynamic : DPG의 출력, 이미지의 cl.. AA-CLIP: Enhancing Zero-shot Anomaly Detection via Anomaly-Aware CLIP 읽기 전 : 뭔가 normal-abnormal alignment가 잘 맞춰져 있는 것 모델을 제안하는 것 같다. 아니면 auxiliary데이터를 활용해서 뭔가를 하나보다~위 사진을 보면 기존 클립 기반의 IAD의 문제를 말해준다.논문을 볼 떄 마다 들었던 의문은 다음과 같다. 왜 image의 feature level 벡터가 normal-abnormal alignment가 맞춰져 있다고 가정하고 시작하지? classification 기반으로 학습을 했을거고 그러면 image level의 feature를 one class segmentation이나 binary classification에 사용하면 domain shift로 인한 문제가 있을 것 같은데 뭐 결과가 잘 나오니 그냥 그렇구나~ 내가 뭔가 잘 모르.. CLIPseg : Image Segmentation Using Text and Image Prompts clipseg -> few-shot-segmentation 관련 논문 listup 2024&2025 top7 1 CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor CVPR 2024 30회2 Test-Time Adaptation with SaLIP: A Cascade of SAM and CLIP for Zero-Shot Medical Image Segmentation CVPR 2024 (Workshop) 14회3 LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning CVPR 2024 (Workshop) 19회4 Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation CVPR 202.. Mitigate the Gap: Improving Cross-Modal Alignment in CLIP 3줄 요약기존 clip은 이미지-텍스트 임베딩 벡터가 dense하고 떨어져 있어, 공유 레이어로 joint space에 임베딩한다.변형된 nce loss를 통해 텍스트-이미지 alignment를 강화, 평균 코사인 유사도를 높인다.fine-tuning 성능 저하 문제를 해결, cc3m 데이터 플롯으로 gap 감소 효과를 직관적으로 확인할 수 있다.Limitation of Previous Studies기존 clip의 이미지-텍스트 임베딩 벡터는 dense하고 seperated 상태로, down stream task에서 모델이 두 벡터 간 상관관계를 효과적으로 포착하지 못한다. (그림 1 참조)clip은 상대 거리만을 기준으로 학습해, pair 벡터가 다른 벡터보다 약간 더 유사하기만 하면 된다. 이로 인해.. VCP-CLIP: A visual context prompting modelfor zero-shot anomaly segmentation 읽기 전 : 진짜 prompting 논문만 3연속이다. anomaly clip만 봐도 AD task에서 feature text alignment가 핵심인 것 같다.3줄 요약1. 기존 learnable prompt 텍스트 인코더에서만 학습되었다. cross modal interaction을 사용하자.2. text-encode, vision encode를 독립적으로 진행하지 말고, text encode과정에서 vision encode의 영향을 받게 하자.3. 그러면, 이미지의 특징을 잘 담은 prompt가 만들어질 것이다. +추가.어떤 state pair를 사용했는지는 중요하지 않음, 훈련에서는 good/damaged를 사용했지만, 추가 test에서 normal/abnormal pair를 사용했는데 성능 차.. ANOMALYCLIP: OBJECT-AGNOSTIC PROMPT LEARN-ING FOR ZERO-SHOT ANOMALY DETECTION 3줄 요약1. CLIP의 CLS token이 anomal vs normal로 align 되어있지 않다.2. CLIP은 classification 기반의 prompt로 학습 되었기에, AD prompt에서는 성능을 내지 못한다.3. object agnostic prompt learning을 통해 위 문제를 해결한다.abstract- ZSAD를 위해 vlm, clip등을 사용하려 할 때 cls token으로 anomaly feature를 추출하려 시도하면 이미지 test-alignment가 깨짐, 왜? -> 기본적으로 CLIP을 예로 들자면 CLIP은 classification을 전제로 만들어짐, cls 토큰이 anomaly vs normal 이렇게 맞춰져 있지 않음.- 또한 domain shift로 인한 .. PromptAD: Learning Prompts with only Normal Samples forFew-Shot Anomaly Detection 3줄 요약1. manual prompt가 pretrained clip과 맞지 않는다. learnable prompt를 사용하자.2. 전부 다 learnable prompt로 쓰지 말고, learnable-suffix-prompt를 사용해서 matual-normal prompt와 잘 조합하면, 알아서 최적의 anomal prompt가 만들어지게 하자.3. prompt학습의 수렴을 2단계로 나눠서 하자. a. 일단 정상 이미지랑 정상 prompt alignment를 맞추자. b. 그리고 정상 이미지와 이상치 프롬프트를 L2 loss사용해서 최대한 멀리 떨어뜨려놓는다.- 해당 과정을 거치게 되면 프롬프트 alignment가 맞춰진다. 논문 다 읽고 궁금점 : 아니 그럼 normal manual pro.. 이전 1 2 3 4 5 다음