Industrial anomaly detection unsolved problem
지금까지 NF기반 AD문제점과 현 시점까지의 연구 사항 정리.
1. 처음 접한 데이터에 대한 AD
- 문제: 새로운 데이터에 대한 AD.
- 해결: Few-shot 데이터 활용, feature map과 prompt 간 cos sim으로 간접 처리.
2. manual prompt 의존성 문제
- 문제: manual & object-aware prompt → semi-manual & object-aware → object-agnostic → object-agnostic & cross-modality interaction prompt로 발전하며 의존성 감소.
- 개선: object-agnostic learnable prompt로 설정해 manual prompt 의존성 축소.
- 한계: template 및 state prompt 의존성이 여전히 잔존.
3. classification 기반 pretrained text model의 한계
- 문제: classification 기반 pretrained text model 사용으로 최적의 텍스트 임베딩 확보 어려움. pretrained text model이 normal/abnormal 텍스트를 직접 다루지 않아 문제
- 해결: prompt ad, VCP-CLIP에서 learnable prompt 활용.
- 한계: vision encoder도 유사한 문제 존재 가능.
- vision encoder 개선: VVattention으로 local semantic 정보를 cls 토큰에 주입.
- 아이디어 : few-shot 데이터에 MAE(masked auto encoder) 적용 시 개선 가능성.
4. cross modality 부족
- 문제: text와 vision space가 분리되어 있으며, contrastive learning으로 간접적 alignment만 수행.
- 해결: VCP-CLIP의 CLS token 활용, 텍스트와 vision 임베딩을 joint space에 임베딩.
- 제안: embedding(text|vision_cls)뿐 아니라 embedding(vision|text)도 고려해 cross modality 강화 필요.
개선 방향
1. template 및 state level prompt 의존성 해소 (아이디어 미확정).
2. 최적의 vision embedding 탐색 (MAE 활용).
3. 구체적이진 않지만, Embedding(text|vision_cls) 외에 embedding(vision|text) 고려, 전반적인 cross modality 강화.