WHY?

기존의 화면에서 사물을 박스치는(Detection) Faster-RCNN에서 한 단계 더 나아가서 특정사물의 영역을 표시하는(Segmentation) 모델을 제안하였다.

WHAT?

기존의 Faster-RCNN은 Region Proposal Network(RPN)에서 RoIPool을 시행한 결과에 classification과 bounding-box regression을 학습시킨다. Mask-RCNN은 여기에서 한 층을 병렬적으로 확장하여 클래스 마다 각 픽셀을 binary mask로 아웃풋하는 층을 추가하여 학습한다. RoiAlign 방법에서 rounding 방법 대신 bilinear interpolation방법을 사용함으로써 값을 추정하여 기존에 RoiPooling의 misalignment문제를 해결하였다.

So

image2 RoiAlignment로 detection정확도 향상. 사람이 있는 곳을 박스치는 작업에서 나아가 사람의 포즈도 추출할 수 있게 되었다.