본문 바로가기

AI/Object Detection

[OD] SPPnet

SPPnet은 R-CNN에서 가장 크게 나타나는 속도 저하의 원인인 각 region proposal마다의 CNN feature map 생성을 보완하였고 이를 통해 학습시 3배, 실제 사용시 10-100배라는 속도 개선을 이루어냈다는 장점을 보여줍니다. 이를 가능케한 구조는 무엇보다도 region proposal에 바로 CNN을 적용하는 것이 아니라 이미지에 우선 CNN을 적용하여 생성한 feature map을 region proposal에 사용했기 때문입니다.

 

SPPnet 학습 구조

 

SPPnet은 Spatial Pyramid Pooling 이라는 특징을 같는 구조를 활용하여 임의 사이즈의 이미지를 모두 활용할 수 있도록 하였습니다. SPP layer는 쉽게 말해서 이미지의 사이즈와 상관없이 특징을 잘 반영할 수 있도록 여러 크기의 bin을 만들고 그 bin값을 활용하는 구조입니다. 결론적으로, SPPnet은 속도를 크게 향상 시켰고, 고정된 이미지만을 필요로 하지 않는다는 장점을 갖게 됩니다.

다만 한계점도 존재합니다. 우선 R-CNN과 같은 학습 파이프라인을 갖고 있기에 multi-stage로 학습이 진행됩니다. 따라서 저장 공간을 요구하게 되고 학습이 여전히 빠르게 진행되기는 어렵게 됩니다. 또한 위의 그림과 같이 CNN의 파라미터가 학습이 되지 못하기에 Task에 맞는 fine-tuning이 어려워집니다.

지금까지 다룬 R-CNN과 SPPnet의 장점을 가져오고 단점을 보완하고자 제안된 결과물이 바로 Fast R-CNN이 되겠습니다.

 

 

 

 

RCNN 부터 Mask R-CNN까지 (1) R-CNN ~ Fast R-CNN

Fast R-CNN 안녕하세요. 이번 포스트에서는 Object Detection을 정리해보려 합니다. 우선, Object Detection이란 Classification보다 더 어려운 task입니다. 분류가 단순히 이미지의 클래스를 판별하는 작업이라면

woosikyang.github.io

 

'AI > Object Detection' 카테고리의 다른 글

[OD] Faster R-CNN  (0) 2021.06.29
[OD] Non-Maximum Suppression(NMS)  (0) 2021.06.28
[OD] Fast R-CNN  (0) 2021.06.25
[OD] R-CNN  (0) 2021.05.20
[OD] Object Detection 흐름  (0) 2021.05.20