본문 바로가기

논문 리뷰

[논문 리뷰] HRNet - Human Pose Estimation

Sun, Ke, et al. "Deep high-resolution representation learning for human pose estimation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.

 

Pose estimation

$(W, H, 3)$ 이미지 $I$에서 $K$개의 키포인트를 예측하는 작업이다. 이를 위해 $W' \times H'$ 크기의 K개 히트맵 $H_1, H_2,...,H_K$을 추정하는 문제로 변환한다. 각 히트맵 $H_K$는 k번 째 키포인트 위치의 신뢰도를 나타낸다. 따라서 가장 값이 높은 픽셀을 키 포인트의 위치로 정한다.

 

 

Architecture

다른 모델들

아래 다른 모델들의 구조를 보기전에 legend에 대한 설명을 간단하게 한다.

  • reg conv : regular convolution
  • dilated conv : dilated convolution

dilated convolution with dilation rate of 2

  • trans conv : transposed convolution
  • 점선 : skip connection

 

다른 모델들의 구조를 간략히 요약한 그림은 다음과 같다.

 

(a) Hourglass [39] : high-to-low와 low-to-high의 과정이 대칭적임

(b) Cascaded pyramid networks [11] : high-to-low 과정은 ResNet이나 VGG 같은 이미지 분류 네트워크의 일부를 사용하여 무겁게 구성하고 low-to-high 과정은 가볍게 구성된다. multi scale feature map은 convolution을 통해 결합하여 입력 이미지와 같은 해상도의 feature map을 만든다.

(c) SimpleBaseline [70] : high-to-low 과정을 수행한 뒤 간단히 transposed convolution을 통해 low-to-high 작업을 수행한다.

(d) : dilated convolution과 조합 [26] : ResNet이나 VGG의 마지막 2 stage에서 dilated convolution을 사용해 공간 해상도 손실을 제거하고 (a)처럼 간단하게 해상도를 증가시킨다.

 

HRNet

 

전체적인 구조는 입력 이미지와 같은 해상도를 유지하는 main body와 입력 해상도를 각각 2배, 4배로 줄인 stem 2개가 있다.

 

3가지 큰 갈래는 지속적으로 정보교환을 하는데, 교환 방식은 다음 그림으로 이해할 수 있다.

 

3가지 해상도로 부터 나온 feature map을 결합할 때는 단순히 adding을 한다.

 

heatmap을 추정할 때는 단순히 회귀를 수행하고, 손실 함수는 ground truth와의 MSE로 정의한다. Ground truth는 각 키포인트의 실제 위치를 중심으로 한 표준 편차가 1 픽셀인 2D 가우시안을 적용하여 생성된다.

 

 

table 3은 다른 모델과 성능을 비교한 것이다. 구조를 봤을 때 연산량이 많을 것 같다고 생각했는데 table 4를 보면 엄청 높지는 않다.

 

table 3에 있는 모든 모델과 GFLOPs를 비교해주었으면 조금 더 좋았을텐데 이 부분은 아쉽다.