본문 바로가기

논문 리뷰

(12)
[논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 1. Introduction Transformer의 언어 도메인에서의 높은 성능을 vision 도메인으로 전이하는데 있어 2가지 challenges가 있다. scale의 차이 word token과 비교하여 visual elements는 scale에서 차이가 있다. token이 고정된 scale을 가지고 있어 vision 응용에 적합하지 않다. 단어에 비해 이미지는 너무 고해상도 pixel을 가지고 있다. pixel level에서 sementic segmentation 작업 같은 dense prediction은 적합하지 않다. self attention의 복잡도가 이미지 크기에 ..
An Image Is Worth 16x16 Words : Transformers For Image Recognition At Scale Google에서 2021/06에 발표된 논문이다. 이 포스팅에서는 논문의 모든 섹션을 다루지 않으며 자세한 내용은 paper에서 확인할 수 있다. paper Abstract Computer Vision에서는 주로 어텐션을 합성곱 네트워크와 함께 사용하거나 합성곱 네트워크의 일부 구성 요소를 대체하는데 사용되며 전반적인 구조는 유지된다. 이 논문에서는 CNN을 사용하지 않은 이미지 패치 시퀀스에 직접 적용된 순수한 트랜스포머가 이미지 분류 작업에서 매우 우수한 성능을 발휘할 수 있음을 보여준다. 또한 합성곱 네트워크에 비해 훈련에 필요한 계산 리소스가 상당히 적게 든다. 1. Introduction 자연어 처리에서의 트랜스포머의 성공을 영감으로 삼아, 최소한의 수정으로 표준 트랜스포머를 이미지에 직접 적용..
Jigsaw-ViT : Learning Jigsaw Puzzles in Vision Transformer paper github 1. Introduction 저자들은 이미지 분류를 위한 ViT에서 자가 지도 보조 손실로서 퍼즐 맞추기를 해결하는 방법인 Jigsaw-ViT를 제안하고 있다. figure 1은 Jigsaw-ViT의 전반적인 overview를 보여주는데, red flow로 표현된 일반적인 CLS 토큰을 사용한 분류 학습에 blue flow로 표현된 $L_{Jigsaw}$를 추가로 학습하는 것이다. 논문에서는 이를 self-supervised 보조 손실로 표현하였다. 일반적인 ViT와 다른 두 가지가 있다. 위치 임베딩 제거 : 모델이 명시적인 단서를 활용하여 부정행위를 하는 것을 방지한다. 무작위 패치 마스킹 : 마스킹이 안된 패치의 위치만 예측하도록 하여 예측이 여러 특정 패치가 아닌 전역 컨텍..
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Paper 대략적인 모델 파이프라인 1. Introduction 이미지에 대한 벡터 표현을 얻기 위해 이전에는 convnet의 최상위 층의 representation을 사용하였다. 여기에는 캡션에 유용할 수 있는 정보가 손실될 수 있는 문제가 생긴다. 그래서 보다 낮은 수준의 representation을 사용하면 이 정보를 보존하는데 도움이 된다. 그러나 이러한 기능을 사용하려면 중요한 정보로 모델을 control 하는 메커니즘이 필요하다. 이 논문에서는 공통 프레임워크를 (모델 구조 동일)사용하는 2가지 접근 방식을 제안한다. “hard” attention mechanism : variational lower bound을 최대화하여 확률론적 훈련 “soft” attention mechanism. : 표..