Vision Transforemr (ViT) | Notion

[출처]

Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS, TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)

1. Vision Transformer

2. Vision Transformer Architecture

3. Vision Transformer Input

4. Vision Transformer Encoder

1. Vision Transformer

Vision Transformer는 Transformer의 전체 architecture를 크게 변경하지 않은 상태에서 이미지 처리를 위한 용도로 사용되는데 의의가 있다.
기존의 이미지 분야에서 attention기법을 사용할 경우 대부분 CNN과 함께 사용되거나 전체 CNN 구조를 유지하면서 CNN의 특정 구성 요소를 대체하는 데 사용되어 왔다.

Attention mechanism이란?

인공지능이 궁금하다고 ? 들어와봐

Vision Tranformer의 장단점

장점

Transformer 구조를 거의 그대로 사용하기 때문에 확장성이 좋다. 기존 attention 기반의 모델들은 이론적에도 좋음에도 불구하고 특성화된 attention 패턴 때문에 효과적으로 다른 네트워크에 확장하기 어려웠다.
Transformer가 large scale 학습에 우수한 성능이 있다는 것이 검증되었기 때문에 이와 같은 효과를 그대로 얻을 수 있다.