[출처]
Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS, TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)
1. Vision Transformer
- Vision Transformer는 Transformer의 전체 architecture를 크게 변경하지 않은 상태에서 이미지 처리를 위한 용도로 사용되는데 의의가 있다.
- 기존의 이미지 분야에서 attention기법을 사용할 경우 대부분 CNN과 함께 사용되거나 전체 CNN 구조를 유지하면서 CNN의 특정 구성 요소를 대체하는 데 사용되어 왔다.
Attention mechanism이란?
인공지능이 궁금하다고 ? 들어와봐
Vision Tranformer의 장단점
장점
- Transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋다. 기존 attention 기반의 모델들은 이론적에도 좋음에도 불구하고 특성화된 attention 패턴 때문에 효과적으로 다른 네트워크에 확장하기 어려웠다.
- Transformer가 large scale 학습에 우수한 성능이 있다는 것이 검증되었기 때문에 이와 같은 효과를 그대로 얻을 수 있다.