본문 바로가기

논문 리뷰

(12)
[논문 리뷰] HRNet - Human Pose Estimation Sun, Ke, et al. "Deep high-resolution representation learning for human pose estimation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. Pose estimation$(W, H, 3)$ 이미지 $I$에서 $K$개의 키포인트를 예측하는 작업이다. 이를 위해 $W' \times H'$ 크기의 K개 히트맵 $H_1, H_2,...,H_K$을 추정하는 문제로 변환한다. 각 히트맵 $H_K$는 k번 째 키포인트 위치의 신뢰도를 나타낸다. 따라서 가장 값이 높은 픽셀을 키 포인트의 위치로 정한다.  Architecture다른 모델들아래..
[논문 리뷰] Swin Transformer V2 Swin Transformer V2: Scaling Up Capacity and ResolutionCVPR 2022  저자들은 large scale vision model의 훈련과 응용에서 세 가지 주요 문제점을 발견했다고 한다.훈련 불안정성pre-training과 fine-tuning 간 해상도 차이레이블된 데이터를 많이 필요로 하는 문제 이런 문제를 해결하기 위해 저자들이 제안한 기술은 다음과 같다.훈련 안정성을 향상시키기 위한 consine attention과 결합된 residual-post-norm저해상도 이미지를 사용하여 사전 훈련된 모델을 고해상도 입력을 사용하는 downstream으로 효과적으로 이전하는 log-spaced continuous position bias광범위한 레이블이 필요 없..
[논문 리뷰] SRGAN Photo-Realistic Single Image Super Resolution Using a Generative Adversarial Network CVPR 2017 0.background PSNR Peak Signal-to-Noise Ratio의 약자로, 영상 및 음향 등 신호처리 분야에서 사용되는 평가지표이다. PSNR은 원본 신호와 압축된 또는 왜곡된 신호 간의 품질을 비교하는 데 사용된다. 수식은 다음과 같다. $PSNR = 10 \log_{10} ({{MAX}^2 \over {MSE}})$ MAX는 픽셀이나 샘플 값의 최대 가능 값이다. 예를 들어, 8비트 영상의 경우 MAX는 255이다. PSNR은 dB로 표시되며, 높은 PSNR 값은 더 좋은 품질을 나타낸다. 예를 들어, 30dB 이상인..
[논문 리뷰] Sharpness-Aware Minimization for Efficiently Improving Generalization Sharpness-Aware Minimization for Efficiently Improving Generalization Google Research에 계시는 분들이 ICLR 2021에 게재한 논문이다. 1. Introduction 현대의 ML, DL은 성능을 끌어올리기 위해 overparameterization이 되어있다. 그렇지만 이는 overfitting에 취약하고 train 데이터를 단순히 memorization하는 문제점이 있다. 이런 경우에는 모델이 train 데이터를 떠나서 population distribution에 대해 일반화가 잘 된 모델인지 생각해 볼 필요가 있다. 일반적으로 모델을 훈련시키기 위해서는 mse나 cross entropy처럼 단순한 손실 함수를 사용하는데, 이는 no..
[논문 리뷰] Self-training with Noisy Student improves ImageNet classification Self-training with Noisy Student improves ImageNet classification 1. Introduction 저자들은 unlabeled images를 사용해 ImageNet 정확도를 SOTA로 향상시켰다. 이 이미지의 대부분은 ImageNet의 어떤 카테고리에도 속하지 않는다. 그리고 이 논문의 핵심으로 semi-supervised learning인 Noisy Student Traning 기법을 사용하여 모델을 훈련시켰다. 이 기법은 간단하게 3단계로 구성된다. label images로 teacher model을 훈련시킨다. 학습된 teacher model을 사용해 unlabeled images에 pseudo label을 생성한다. labeled images와 pseu..
[논문 리뷰] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 1. Introduction ResNet-18을 ResNet-200으로 확장하는 것처럼 ConvNets을 확장하여 더 나은 정확도를 달성하는 것이 일반적이다. 이 경우에는 깊이를 확장한 것인데, 너비와 이미지 해상도를 확장할 수도 있다. 그러나 문제점은 이러한 세 가지 차원을 임의로 확장할 수는 있지만, 임의로 확장하는 것은 수동 조정이 필요하며 최적의 정확도로 효율성을 얻지 못할 수 있다. 위와 같이 어떤 차원에 대해 확장하는 것은 scaling up이라고 부르는데, 저자들은 전통적인 방식과 달리 compound scaling method를 제안한다. 이는 네트워크 너비, ..
[논문 리뷰] Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 2019년 8월에 발행된 논문으로 코드 유사성 판단 경진대회 문제를 해결하기 위해 읽게 됐다. 해당 대회의 데이터는 C++로 작성된 두 쌍의 코드가 있고, 유사성을 1과 0으로 나타내는 label이 있다. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 0. background Siamese Network Siamese network는 가중치를 공유하는 2개의 네트워크가 있고 각각의 네트워크에 input1, input2를 입력받은 뒤 embedding1, embedding2를 출력한다. 그런 다음 두 임베딩 벡터의 유사도를 측정하는 목적 함수(코사인 유사도, L1, L2, 맨해튼, 유클리디안 등)를 거쳐 목적에 맞는 작업을 수행한다. Tri..
[논문 리뷰] CvT: Introducing Convolutions to Vision Transformers Vision Transformer와 CNN에 대한 지식이 있다면 논문 내용이 어렵지 않으니 직접 읽어보시는 것을 추천함 CvT: Introducing Convolutions to Vision Transformers 1. Introduction ViT(Vision Transformer)는 이미지를 겹치지 않는 패치로 분할(예를 들면 16x16)한 뒤 특수한 위치 인코딩과 함께 표준 Transformer layer에 입력한다. 이는 분류를 위해 패치간의 global relationship을 모델링한다. ViT가 대규모 데이터셋에 대해서는 괜찮은 성능을 보였지만 적은 데이터로 훈련됐을 때는 CNN보다 낮은 성능을 보였다. 이는 ViT가 CNN이 가지고 있는 이미지 데이터에 대한 귀납적 편향이 부족하다고 설명될..