본문 바로가기

UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection(CVPR 2025) 논문 리뷰3줄 요약특정 도메인, 데이터에 종속적이지 않은, 전반적인 영역에서 AD를 수행하는 few-shot 기반 모델을 소개한다.RAM + SAM + kmeans를 통해 compoment mask를 만들고 이를 이용하여 component vector를 얻는다. 이를 활용하여 AS(anomaly segmentation)을 진행한다.다양한 vision foundation model의 조합으로 domain specific한 모델이 아닌, unified한 모델을 만들 수 있다.Limitation of Previous Studiesdefect는 여러 도메인에서 여러 분포로 나타난다.(해당 주장에 대해 필자는 Ada-CLIP의 실험을 인용하고 싶다. Ada-CLIP은 여러 데이터에 걸쳐 vision vector를..
읽을 논문 buffer 수정본 2025/05 정리 기준은 다음과 같다.1. is. zero-shot? few-shot? full-shot?2. method? SAM? GPT? CLIP? MIXED?3. trainable? non-trainable? + 뭘 바꿔야 AD성능이 올라갈까?- 논문을 쭉 읽으면서 느낀 부분은 시작은 항상 CLIP으로 한다. 클립으로 되는걸 SAM으로 하면 성능이 더 좋아진다. 그리고 SAM이나 CLIP으로 한걸 GPT가 이해하는 그런 방향으로 논문이 반복되는 것 같다. 어떻게 정리할까1. 서베이를 자세히 읽는다. 2025년도 서베이 기준으로, 포인트는 FM으로 잡는다.2. 서베이 기준으로 FM 논문을 찾는다.3. 논문을 요약할 땐, - 이전 연구 문제점- 개선사항- method- setting을 본다. Survey 1. B..
MuSc: Zero-Shot Industrial Anomaly Classification and Segmentation with Mutual Scoring of the Unlabeled Images(ICLR 2024) 이제 논문 읽는 방법이 좀 정돈된 것 같다.원래는 그냥 line by line으로 딥다 읽었는데, 이건 좀 비 효율적인 방법임을 느꼈다. 개인적으로 추천하는 방법은 다음과 같다.abstract -> method -> abstract -> related word -> introduction -> implementation detail -> ablation study -> conclusion 오늘은 논문이 잘 읽히지 않아서 내일 해야겠다 3줄 요약1. 어떤 클래스에 대한 이상치 탐지는, 같은 클래스의 서로 다른 이미지와 비교하여 찾을 수 있다.2. 이미지를 병렬로 처리하여 해당 이미지가 같은 클래스의 다른 이미지와 얼마나 다른지/같은지를 모델링 하여 AC/AC를 수행함.3. 프롬프트, 이미지 레벨 레이블, ..
Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models abstractZSAD를 위한 벤치마크와 데이터가 필요하다.dataset : Anomaly-instruct-125l, benchmark : visa-d&r을 제안GPT4o와 같은 모델은 fine-grained(작은 객체) defect의 탐지 능력이 부족함을 조사를 통해 알게 되었다. 이에, Anomaly-OV를 제안하는데 이는, Look-Twice Feature Matching (LTFM) mechanism을 통해 abnormal vision token을 선택하고 강조한다.IAD뿐만 아니라 medical&3D AD에서도 좋은 성능을 보인다.1. introductionreal-world의 needs를 반영하기 위해 ZSAD를 도입함으로 연구와 실제 산업에서의 GAP을 줄임ZSAD는 MLLMs를 기반으로 동..
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models(TPAMI 2023) 2025 논문들을 보면 Q-former를 사용한다. 특히 vision-text alignment를 맞추는데 사용하는 것 같다. anomaly-ov를 읽는데 q-former 부분이 도저히 이해가 안가서 해당 논문을 읽으려 한다. 논문을 읽은 후 한 줄로 Q-former를 정리하면 다음과 같다. : 이미지 feature에서 LLM이 이해할 수 있게 중요한 벡터들만 추출한다. 목차는 다음과 같다. Abstract1. introduction2. related work3. method3.1 model architecture3.2 Bootstrap Vision-Language Representation Learning from a Frozen Image Encode - Image-Text Contrastive Le..
AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection (ECCV 2024) 3줄 요약auxiliary data를 통한 adaptation을 진행한다. 실험적으로 알게 된 사실은 데이터에 무관하게 normal data는 비슷한 분포를 따르고, abnormal data는 그 defect class에 맞게 특징적인 분포를 따른다. "벽" 클래스에 해당하는 보조 데이터셋으로 학습했다 가정하면, 매끈한 벽이 normal data일 것이다. 그럼 해당 모델은 매끈한 기판도 normal로 인식 할 것이다. 만약 스크레치가 난 벽이나 기판을 만난다면, CosSim을 통해 defect로 판정할 것이다. dynamic + static learnable prompt가 이미지, 텍스트 임베딩 레이어에 붙는다. 해당 프롬프트는 이미지를 기반으로 생성된다.dynamic : DPG의 출력, 이미지의 cl..
AA-CLIP: Enhancing Zero-shot Anomaly Detection via Anomaly-Aware CLIP 읽기 전 : 뭔가 normal-abnormal alignment가 잘 맞춰져 있는 것 모델을 제안하는 것 같다. 아니면 auxiliary데이터를 활용해서 뭔가를 하나보다~위 사진을 보면 기존 클립 기반의 IAD의 문제를 말해준다.논문을 볼 떄 마다 들었던 의문은 다음과 같다. 왜 image의 feature level 벡터가 normal-abnormal alignment가 맞춰져 있다고 가정하고 시작하지? classification 기반으로 학습을 했을거고 그러면 image level의 feature를 one class segmentation이나 binary classification에 사용하면 domain shift로 인한 문제가 있을 것 같은데 뭐 결과가 잘 나오니 그냥 그렇구나~ 내가 뭔가 잘 모르..
CLIPseg : Image Segmentation Using Text and Image Prompts