P. Dhariwal and A. Nichol, “Diffusion models beat gans on image
synthesis,” in NeurIPS, 2021
X. Liu, D. H. Park, S. Azadi, G. Zhang, A. Chopikyan, Y. Hu, H. Shi,
A. Rohrbach, and T. Darrell, “More control for free! image synthesis
with semantic diffusion guidance,” in WACV, 2023
위 내용은 image guidance에 대한 내용이고, 사실 위 내용은 아래의 수식만 보아도 이해가 편하다. 부호가 햇갈리는데 이는 샘플링 과정을 생각하면 명쾌해진다.
새롭게 예측할 노이즈는, t시점에서는 likelyhood가 작아지고 t-1 시점에서는 likelyhood가 커지는 그런 노이즈라는 것이다.
xt -> x0로 갈수록, 현재 시험에 likelyhood를 내리고 xt-1 시점의 likelyhood를 올리게 된다. image guidance 또한 동일하다.
3줄 요약
- autoencoder 기반의 방법은, defect가 없는 부분 조차 잘못 reconstruct 하는 경우가 있었고, defect는 그대로 복원하는 문제가 있었다.
- defect를 노이즈로 간주하여 reconstruct 시켜 정상 이미지를 얻는다.
- 이후 difference segmentation을 진행하여, anomaly detection을 수행한다.
Limitation of Previous Studies/Motivations
주어진 상황은, 소수의 few-shot reference를 가지고, reconstruction 기반의 anomaly segmentation을 하는 것이다.
- reconstruction 능력 부족 : reconstruction model은 pixel to pixel 비교를 통해 anomaly detection을 진행한다. 이는 모델이 abnormal 이미지를 입력 받아 normal 이미지를 출력하고 이를 pixel to pixel로 비교하는 방식이다. 해당 문제는 모델이 reconstruction을 똑바로 진행하지 못하여 정상인 부분도 abnormal로 잘못 판단하게 된다. 또한 defect 까지 reconstruct 하는 경우가 많았다.
- 느린 inference 속도 : real-time에서 동작해야 하는 IAD 모델의 특성상 느린 inference 속도는 치명적이다. 특히 매 스텝 forward process와 reverse process를 반복하는 과정은 시간 소모적이다.
Observations
- diffusion based reconstruction method를 도입해여 모델의 reconstruction 능력을 올린다. 특히 이미지에 어떤 defect가 발생했을 때 이를 reconstruct 해야 하는 noise로 간주하여 defect를 효과적으로 reconstruct 한다.
- defect는 노이즈로 간주된다. 따라서 denoising process에서 defect는 normal 이미지로 복구된다.
[실험적 통찰]
- defect는 noise로 간주한다-> 여기서, fine-grain한 defect에는 얕은(작은 스케일) 노이즈가 필요하고, 상대적으로 큰 defect는 강한 noise를 추가해야 좋은 reconstruction을 보였다.
- 또한 기존의 ddpm과 같은 모델은 backward process에서 이미지 xT(완전한 가우시안)에서 x0 까지 점진적으로 간다. 이는 시간 소모적이다. 하지만, 해당 모델에서는 만들어져야 하는 이미지는 이미 정해져 있고, 노이즈를 추가한 이미지가 완전한 가우시안이 아닌 중간지점의 이미지기에 one-step denoising이 가능하다.
Method
Reconstruction sub-network
- 해당 과정은 defusion의 forward process를 진행한다.
- 해당 과정에서는 NOD가 존재하는데 이는 one-step denoising 과정이다. 이는, t가 400보다 작을 때 iterative denoising 과정을 거친 결과물과 one-step denoising을 거쳤을 때와 결과에 큰 차이가 없다는 것을 의미하며, 이는 실험적으로 확인하였다.
- 또한, 큰 스케일의 defect는 더 강한 노이즈가, 작은 스케일의 defect는 약한 노이즈가 필요하다는 것을 실험적으로 발견했다. 아래 그림에서 볼 수 있다.
큰 defect | 작은 defect | |
강한 noise | good | 외곡이 생김 |
약한 noise | defect가 남아있음 | good |
- 위와 같은 상황에서는 다음의 방식을 사용할 수 있다.
- 1. 강한 noise를 추가했을 땐 '상대적으로' 일관된 이미지를 생성한다.
- 2. 강한 noise 추가한 다음, 해당 이미지를 guidance로 활용한다.
살짝 햇갈릴 수 있어 한 줄로 정리하면 다음과 같다.
: 큰 노이즈를 추가한 이미지는 가이던스의 역할만 수행한다. 해당 가이던스를 바탕으로 작은 노이즈를 추가한 이미지를 얻으면, 이는 두 방법의 장점을 모두 갖는 이미지가 나오게 된다.
segmentation sub-network
- metauas 와 비슷한 방식으로 두 이미지(recon-original)의 차이를 segmentation 한다.
학습 과정은 다음과 같다.
아래 과정은 Anomaly Synthetic Strategy이다. 복잡해 보이지만, 상관 없는 이미지의 segmentation map에서 intersection에 해당하는 부분을 다른 이미지로 채워서 가짜 defect를 만드는 과정이다.
Experiments
학습과정은 모든 정상 이미지 + 합성 이미지에서 이루어진다. 즉, mvtec, visa의 normal 데이터를 모두 학습 데이터로 사용하였다.
+ 추가 ablation
- 실험적으로 '큰 노이즈' 의 기준 t = 400, 작은 노이즈 = 200
- t=500을 기준으로 one-step-denoising의 성능이 급 하락. 이에 400~500 사이가 큰 노이즈.
props
- 기존 reconstruction 기반의 방법론이 normal 부분의 외곡이 심했던 문제를 해결
- one-step-denoising으로 inference 속도 향상
cons
- 노이즈 선택 이유가 명쾌하지 않다.
- visa, mvtec에서는 200, 400이 최적의 값이라고 실험적으로 보였지만, 이는 다른 데이터셋의 경우에는 optimal 값이 달라지고, 이는 매 데이터 마다 파라미터의 수정을 야기한다.
- abnormal synthesis에서 defect의 표현이 특정 데이터에 의존하게 된다. 이는 실제 defect의 표현을 전부 담을 수 없다.
'논문읽기' 카테고리의 다른 글
Unsupervised Surface Anomaly Detection with Diffusion Probabilistic Model (2) | 2025.07.09 |
---|---|
Anomaly Detection with Conditioned Denoising Diffusion Models (0) | 2025.07.08 |
IAD 관련 아직 안 읽은거 (0) | 2025.07.02 |
SAM : Segment Anything (0) | 2025.06.28 |
Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection (0) | 2025.05.30 |