Transformer Architecture (1) 썸네일형 리스트형 [논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 1. Introduction Transformer의 언어 도메인에서의 높은 성능을 vision 도메인으로 전이하는데 있어 2가지 challenges가 있다. scale의 차이 word token과 비교하여 visual elements는 scale에서 차이가 있다. token이 고정된 scale을 가지고 있어 vision 응용에 적합하지 않다. 단어에 비해 이미지는 너무 고해상도 pixel을 가지고 있다. pixel level에서 sementic segmentation 작업 같은 dense prediction은 적합하지 않다. self attention의 복잡도가 이미지 크기에 .. 이전 1 다음