논문읽기

Industrial anomaly detection unsolved problem

띠오니의 IAD 2025. 4. 17. 13:06

지금까지 NF기반 AD문제점과 현 시점까지의 연구 사항 정리.


1. 처음 접한 데이터에 대한 AD
   - 문제: 새로운 데이터에 대한 AD.  
   - 해결: Few-shot 데이터 활용, feature map과 prompt 간 cos sim으로 간접 처리.

2. manual prompt 의존성 문제
   - 문제: manual & object-aware prompt → semi-manual & object-aware → object-agnostic → object-agnostic & cross-modality interaction prompt로 발전하며 의존성 감소.  
   - 개선: object-agnostic learnable prompt로 설정해 manual prompt 의존성 축소.  
   - 한계: template 및 state prompt 의존성이 여전히 잔존.

3. classification 기반 pretrained text model의 한계  
   - 문제: classification 기반 pretrained text model 사용으로 최적의 텍스트 임베딩 확보 어려움.  pretrained text model이 normal/abnormal 텍스트를 직접 다루지 않아 문제
   - 해결: prompt ad, VCP-CLIP에서 learnable prompt 활용.  
   - 한계: vision encoder도 유사한 문제 존재 가능.  
   - vision encoder 개선: VVattention으로 local semantic 정보를 cls 토큰에 주입.

   - 아이디어 : few-shot 데이터에 MAE(masked auto encoder) 적용 시 개선 가능성.

4. cross modality 부족   
   - 문제: text와 vision space가 분리되어 있으며, contrastive learning으로 간접적 alignment만 수행.  
   - 해결: VCP-CLIP의 CLS token 활용, 텍스트와 vision 임베딩을 joint space에 임베딩.  
   - 제안: embedding(text|vision_cls)뿐 아니라 embedding(vision|text)도 고려해 cross modality 강화 필요.

개선 방향  
1. template 및 state level prompt 의존성 해소 (아이디어 미확정).  
2. 최적의 vision embedding 탐색 (MAE 활용).  
3. 구체적이진 않지만, Embedding(text|vision_cls) 외에 embedding(vision|text) 고려, 전반적인 cross modality 강화.