기존 Object Detection엔 주로 Faster R-CNN 계열이 좋은 성능을 내고 있었음
Object Detection 모델의 발전 과정
일반 CNN → R-CNN(0.05 FPS) → Fast R-CNN(0.5 FPS) → Faster R-CNN(7 FPS) → YOLO(45~155 FPS)
One-stage vs Two-stage
One-stage-detection : Region Proposal과 Classification이 동시에 이루어짐
ex) YOLO, SSD, RetinaNet
Two-stage-detection : Region Proposal과 Classification이 각각 순차적으로 이루어짐
ex) R-CNN 계열
Grid 분할 : Input image를 S X S grid로 나눈다.
Bounding box
Conditional class Probability
Grid cell output
최종 파라미터 개수 = S X ((B X 5) + C)
S : grid cell 개수
B : bbox 개수
C : class 개수