더 읽을거리 Myriad, patch core
abstract
- llm은 specific한 defects들을 감지하지 못함. 그 성능이 떨어짐 그래서 llava의 anyres를 수정한 모듈을 제안.
- 기존의 방식은 왜 그 defect 들이 생겼는지 알지 못해 -> manufacturing-driven IAD paradigm -> COT를 활용해서 모델이 산업 프로세스를 이해하게 함.
- COT, EVT
introduction
- lm은 general-purpose task에서는 성능이 훌륭한데, IAD에서는 성능이 기대치를 만족하지 못함. 이유는 아래와 같음
- llm은 VL의 광범위한 쌍을 학습하는데 이게 전반적인 사전지식학습에서는 좋은데 defect region를 구체적으로 이해하는 능력은 부족함 -> EG-ROI-> high resolution에 집중 가능
- 많은 IAD task에서는 단지 시각적 현상에서 defect를 찾는데 집중하고 산업 현장에서 프로세스의 이해는 무시한다. -> 지금까지 존재하는 image level comparison or defect taxonomies는 왜 이런 defect가 생겼는지 이해 못함
TODO
- 기존의 IAD데이터셋에서 캡셔닝을 달고 여러 타입의 데이터를 모아 새로운 데이터셋으로 만듦
- COT, EVT를 사용함
- 기존의 전통적인 IAD는 reconstruct, embedding 비교 방식을 사용
- winclip anomalyGPT이런것도 해당 defect의 인과관계를 이해하지 못함
- 이번에 느낀건데 related works를 보면 이전 연구들 중 메이저 연구를 볼 수 있음
METHODS
- 기존의 IAD는 Q image-text를 받아서 binary하게 normal abnormal을 판별함
진짜 ㅋㅋㅋ 감탄만 나온다.
어떻게 이런 생각을 했지? 진짜 복잡하지 않고 간결하면서 진짜 지금 IAD관련해서 가장 읽기 편하고 바로 task이해가 되는 논문이었음.
이거 그냥 그림 한 장에 바로 이해가 되는 아름다운 설명임
- 데이터를 만드는데 random하게 틀린 설명을 추가함.
- 그리고 COT데이터 만들고 할루시네이션 샘플은 좀 걸러냄
- EG-ROI하면 이미지가 겹칠 수 있음 근데 이건 오히려 IAD에서 좋음. 데이터 증강의 효과, 그러면서 높은 해상도
근데 expert layer를 어떻게 훈련 시키는지는 설명을 안함. 그냥 이미지 4개로 crop함. 이러고 설명을 넘어감.
'논문읽기' 카테고리의 다른 글
A Survey on Foundation-Model-Based Industrial Defect Detection (0) | 2025.03.31 |
---|---|
WinClip-코드 톺아보기 (1) | 2025.03.31 |
[수정O]WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation (0) | 2025.03.24 |
AnomalyGPT: Detecting Industrial Anomalies UsingLarge Vision-Language Models (2) | 2025.03.22 |
OWL-ViT: Simple Open-Vocabulary Object Detection with Vision Transform (2) | 2025.02.15 |