SelfReformer: Self-Refined Network with Transformer for Salient Object

📝 Paper & Presentation

기존 SOD 방식의 2가지 주요 문제
1. Global context의 경우 CNN 기반 encoder가 long-range dependencies를 효과적으로 catch할 수 없어 불완전한 예측이 발생
2. Prediction 크기에 맞게 GT를 downsampling 하면 interpolation이나 pooling 과정에서 정보 손실이 발생하여 부정확성 발생
1번 문제 해결을 위해 Transformer encoder를 backbone으로 사용
SuperResolution의 Pixel Shuffle을 적용하여 decoder 단계의 prediction을 GT의 크기로 reshape하여 2번 문제 해결
Global context를 decoder와 융합하고 local의 세부적인 정보를 자체적으로 찾고 바꾸기 위해 Context Refinement Module (CRM) 개발

Untitled

SOD의 최신 모델은 CNN 기반이며 이미지가 multi-level feature로 encoding된 다음 feature의 융합과 saliency prediction을 위한 decoding 단계가 있는 encoder-decoder 구조가 많음

→ CNN 기반은 long-range 관계를 학습하는 데에 제한적이어서 global consistency가 부족함
Global context를 명시적으로 얻을 수 있는 방법이 없고 아직까지는 직관적임 따라서 global 및 local context의 더 좋은 표현을 정의하는 것은 여전히 해결되지 못함
기존 SOD의 문제를 3가지 측면에서 해결
1. GT의 구조적 특성을 유지하기 위해 up/downsampling 방법으로 SuperResolution의 Pixel Shuffle을 적용
  
  → 픽셀 값을 변경하지 않고도 고해상도(HR) 이미지를 저해상도(LR) 이미지로 reshape 가능
2. Global context를 정확하게 얻기 위해 SOD를 patch-wise saliency detection 문제로 보고 각 branch를 supervise하게 명시적으로 학습
3. Global context feature를 융합하고 local의 불확실한 영역을 개선하기 위해 **Context Refinement Module(CRM)**을 개발
  
  → Global context를 decoder feature와 융합하여 얻어진 prediction의 불확실한 영억을 기반으로 local context feature map이 생성