전체 글 (124) 썸네일형 리스트형 09 객체 탐지 (1) Faster R-CNN 객체 탐지(Object Detection)란 이미지나 영상에서 특정 객체를 탐지하고 영역을 인식하는 컴퓨터비전 기술이다. 객체 탐지는 크게 물체의 분류 작업과 지역화 작업으로 나눌 수 있다. 분류 : 이미지에서 물체가 어떤 종류인지를 분류하는 작업으로 각각의 클래스에 대한 확률값을 분석 지역화(Localization) : 이미지에서 물체의 위치를 파악하는 작업으로 이미지에서 물체가 위치한 영역을 찾아 해당 영역의 좌푯값을 예측 객체 영역을 표현하는 방법에는 경계 상자 방식과 마스크 방식이 있다. 경계 상자(Bounding Box) : 객체의 영역을 사각형 형태로 표현하며 이미지에서 객체의 위치와 크기를 파악할 수 있다. 경계 상자는 직사각형의 구조로 선분이 수평 또는 수직한 구조를 갖는다. 마스크 : 객.. 08 이미지 분류 (4) Grad-CAM Grad-CAM(Gradient-weighted Class Activation Map)이란 설명 가능한 인공지능(eXplainable Artificial Intelligence, XAI) 기술 중 하나로, 딥러닝 모델의 내부 동작 원리를 시각화하는 방법이다. 딥러닝 모델이 이미지 분류와 같은 작업을 수행하기 위해서는 입력 이미지에서 중요한 영역을 파악해 예측해야 한다. 하지만 이러한 예측 과정은 블랙박스 문제를 유발한다. 블랙박스 문제란 딥러닝 모델이 어떻게 입력 데이터를 처리해 예측을 내리는지 이해하기 어려운 문제를 의미한다. 설명 가능한 인공지능은 이러한 문제를 해결하기 위해 고안된 방법론으로, 모델 내부 작동 방식을 분석해 결과를 해석하고, 인공지능 모델의 동작 방식을 설명할 수 있는 방법을 제공한.. 08 이미지 분류 (3) ResNet ResNet(Residual Network)은 2015년 카이밍 허가 이끄는 마이크로소프트 연구팀이 발표한 모델이다. 인식 오류율 3.57%를 달성해 ILSVRC 대회에서 우승했다. VGG 모델은 더 작은 크기의 필터를 사용해 계산 효율성을 향상 시켰지만, 깊은 신경망 구조로 인해 기울기 소실 문제가 발생했다. 레즈넷은 이를 해결하기 위해 잔차 연결(Residual Connection), 항등 사상(Identity Mapping), 잔차 블록(Residual Block) 등을 통해 기울기 소실 문제를 해결하고 계산 효율성을 높였다. ResNet은 계층의 수에 따라 ResNet-18, 34, 50, 101, 152 형태로 제공된다. 1. 특징 레즈넷은 두 개의 합성곱 계층과 스킵 연결로 이뤄져 있다. 스킵.. 08 이미지 분류 (2) VGG VGG-16은 ILSVRC 2014에서 준우승한 합성곱 신경망 모델이다. 옥스포드 대학의 연구팀 VGG(Visual Geometry Group)에서 개발했다. 동일한 대회에서 우승한 구글넷(GoogLeNet)의 인식 오류율은 약 6%로, 인식 오류율이 7%인 VGG-16보다 더 우수한 성능을 보였지만, VGG-16은 이후 연구에 더 많이 활용됐다. 구글넷은 인셉션 모듈(Inception module)을 사용하여 다양한 필터 크기와 풀링 작업으로 병렬 합성곱 연산을 수행한다. 이 방식은 전역 특징과 지역 특징을 모두 포착하여 성능을 높일 수 있다. 그러나 복잡한 구조로 인해 VGG-16과 같이 상대적으로 간단한 구조의 모델만큼 활용되지는 않았다. 1. AlexNet과 VGG-16 VGG-16은 알렉스넷과 .. 08 이미지 분류 (1) AlexNet 이미지 분류는 이미지에서 객체(Object)나 장면(Scenes)과 같은 요소를 인식하고 분류하는 알고리즘이다. 지도 학습의 한 유형으로, 이미지와 이미지에 해당하는 클래스를 할당해 데이터세트를 구성한다. 이미지 분류는 크게 단일, 다중 클래스 분류, 다중 레이블 분류로 나뉜다. 단일 클래스 분류 : 이미지 안에 서로 다른 여러 객체가 존재하더라도 하나의 대표 클래스로만 이미지를 분류한다. 예를 들어 개의 이미지가 주어진다면 개인지 아닌지 즉, 참인지 거짓인지를 판별한다. 다중 클래스 분류 : 개인지, 고양이인지를 분류하거나 개의 품종을 분류하는 일을 수행한다. 다중 레이블 분류 : 입력 이미젱서 여러 클래스를 예측한다. 예를 들어 이미지 안에서 개, 소파, 커튼 등을 검출할 수 있다. AlexNet은 .. 07 트랜스포머 (6) T5 위 그림은 가장 대표적인 트랜스포머 아키텍처를 보여준다. 지금까지 공부한 디코더 기반의 GPT, 인코더 기반의 BERT, ELECTRA, 그리고 seq2seq 구조의 BART를 확인할 수 있다. T5(Text-to-Text Transfer Transformer)는 2019년 구글에서 발표한 트랜스포머 구조를 기반으로한 모델이다. T5는 GLUE, SuperGLUE, CNN/DM(Cable News Network/Daily Mail) 등에서 SOTA를 달성했으며 다양한 자연어 처리 작업에서 높은 성능을 보이는 모델이다. T5는 입출력을 모두 토큰 시퀀스로 처리하는 Text-to-Text 구조다. 따라서 입출력의 형태를 자유롭게 다룰 수 있으며, 모델 구조상 유연성과 확장성이 뛰어나기 때문에 새로운 자연어 .. 07 트랜스포머 (5) ELECTRA ELECTRA(Efficiently Learning an Encoder thar Classifies Token Replacements Accurately)는 2020년 구글에서 발표한 트랜스포머 기반의 모델이다. ELECTRA는 GAN과 유사한 방법으로 생성자와 판별자를 사용해 사전 학습을 수행한다. 1. 사전 학습 방법 생성자와 판별자 모두 트랜스포머 인코더 구조를 따른다. 생성자는 입력 문장의 일부 토큰을 마스크 처리하고 마스크 처리된 토큰이 원래 어떤 토큰이었는지 예측하며 학습한다. 반면에 판별자는 입력 토큰이 원본 토큰인지 생성자에 의해 바뀐 토큰인지 구분하는 학습을 수행한다. 이러한 학습 방법을 RTD(Replaced Token Detection)라고 한다. 예를 들면 다음과 같다. 원본 문장 .. 07 트랜스포머 (4) BART 1. BART BART(Bidirectional Auto Regressive Transformer)는 2019년 메타의 FAIR 연구소에서 발표한 트랜스포머 기반의 모델이다. BART는 BERT의 인코더와 GPT의 디코더를 결합한 seq2seq 구조로 노이즈 제거 오토인코더(Denoising Autoencoder)로 사전 학습된다. 이는 입력 데이터에 노이즈를 추가하고, 노이즈가 없는 원본 데이터를 복원하도록 학습하는 방식으로 수행된다. 트랜스포머에서는 인코더의 모든 계층과 디코더의 모든 계층 사이의 어텐션 연산을 수행했다면, BART는 인코더의 마지막 계층과 디코더의 각 계층 사이에만 어텐션 연산을 수행한다. 2. 사전 학습 방법 사전 학습에 사용한 기법은 토큰 마스킹(Token Masking), 토큰.. 이전 1 ··· 3 4 5 6 7 8 9 ··· 16 다음