SelfReformer_Self-Refined Network with Transformer for Salient Object.pdf
SOD의 최신 모델은 CNN 기반이며 이미지가 multi-level feature로 encoding된 다음 feature의 융합과 saliency prediction을 위한 decoding 단계가 있는 encoder-decoder 구조가 많음
→ CNN 기반은 long-range 관계를 학습하는 데에 제한적이어서 global consistency가 부족함
Global context를 명시적으로 얻을 수 있는 방법이 없고 아직까지는 직관적임 따라서 global 및 local context의 더 좋은 표현을 정의하는 것은 여전히 해결되지 못함
기존 SOD의 문제를 3가지 측면에서 해결
GT의 구조적 특성을 유지하기 위해 up/downsampling 방법으로 SuperResolution의 Pixel Shuffle을 적용
→ 픽셀 값을 변경하지 않고도 고해상도(HR) 이미지를 저해상도(LR) 이미지로 reshape 가능
Global context를 정확하게 얻기 위해 SOD를 patch-wise saliency detection 문제로 보고 각 branch를 supervise하게 명시적으로 학습
Global context feature를 융합하고 local의 불확실한 영역을 개선하기 위해 **Context Refinement Module(CRM)**을 개발
→ Global context를 decoder feature와 융합하여 얻어진 prediction의 불확실한 영억을 기반으로 local context feature map이 생성