본문 바로가기

Convolutional Vision Transformer

(2)

10 비전 트랜스포머 (3) CvT pytorch 실습 CvT(Convolutional Vision Transformer)의 이론적인 내용은 이전 포스팅에서 확인할 수 있다. 2024.03.12 - [논문 리뷰] - [논문 리뷰] CvT: Introducing Convolutions to Vision Transformers ViT, Swin Transformer와 마찬가지로 허깅페이스 라이브러리로 사전 학습된 CvT 모델을 FashionMNIST 데이터셋으로 간단한 fine tuning 실습을 진행한다. 코드가 거의 동일하기 때문에 변경점과 모델 구조 등을 알아보고 평가 결과만 확인한다. 이미지 프로세서 "microsoft/cvt-21" 모델은 이미지 크기를 조절할 때 shortest_edge 키를 사용해 전처리를 진행한다. shortest_edge는 이미지..

[논문 리뷰] CvT: Introducing Convolutions to Vision Transformers Vision Transformer와 CNN에 대한 지식이 있다면 논문 내용이 어렵지 않으니 직접 읽어보시는 것을 추천함 CvT: Introducing Convolutions to Vision Transformers 1. Introduction ViT(Vision Transformer)는 이미지를 겹치지 않는 패치로 분할(예를 들면 16x16)한 뒤 특수한 위치 인코딩과 함께 표준 Transformer layer에 입력한다. 이는 분류를 위해 패치간의 global relationship을 모델링한다. ViT가 대규모 데이터셋에 대해서는 괜찮은 성능을 보였지만 적은 데이터로 훈련됐을 때는 CNN보다 낮은 성능을 보였다. 이는 ViT가 CNN이 가지고 있는 이미지 데이터에 대한 귀납적 편향이 부족하다고 설명될..

이전 1 다음

티스토리툴바