일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Today
- Total
- activation function
- AdaGrad
- adaptive learning rate
- arithmetic reasoning
- Attention is all you need
- attention mechanism
- auto encoder
- Back Propagation Trough Time
- Backpropagation
- Bayes Theorem
- BCE
- Bert
- Bidirectional Encoder Representation from Transformer
- Binary classification
- BPTT
- Chain-of-Thought
- CNN
- commonsense reasoning
- Computer Vision
- Confusion Matrix
- convolutional neural network
- Cot
- cot reasoning
- counting
- Cross Entropy Loss
- deep learning
- degradation
- Dimension Reduction
- Few-shot
- fine-tuning
목록deep learning (15)
데이터 분석 일지

0. Foundation Concept of RNN 이전까지는 함수에 x를 입력 받으면 y를 출력하는 형식을 정의했었다. 하지만 RNN은 sequential data나 time series data를 다룰 수 있는 구조를 지닌다. RNN은 이전 time step의 출력을 입력으로 받는 특성을 가진다. 따라서 x와 이전 time step의 출력 h_(t - 1)을 입력으로 받아 현재 time step인 h_t를 출력하는 구조인 것이다. FC layer나 CNN은 이전의 출력 정보를 입력으로 받지 않고, 순서 정보를 고려하지 않는 반면에, RNN은 순서 정보나 이전 데이터에 기반한 현재 데이터의 처리를 할 수 있다. 0. 1. Sequential Data vs Time Series Data sequen..

0. Introduction cumputer vision 분야에서의 딥러닝은 2012년 이미지넷의 우승으로 큰 주목을 받았다. 아래의 그림과 같이 shallow를 사용하였을 때보다 딥러닝을 사용할 수록 error가 감소하는 것을 볼 수 있다. 추가로 2012년의 AlexNet은 8개의 layer를 사용하였고, 2015년의 ResNet은 152개의 layer를 사용한 것으로 보아, 신경망이 깊어질 수록 성능이 좋아지는 것을 알 수 있다. 0. 1. Types of Computer Vision 컴퓨터 비전 안에서의 작업을 크게 네 가지로 나누어 보았다. 이는 아래와 같다. Image Classification: ImageNet, Anomaly Detections, Out of Distribution Obje..

1. Foundation Concept of CNN 1. 1. Before Deep Learning 딥러닝에 CNN이 적용되기 전에도 convolution filter는 널리 사용되어 왔다. 하지만 traditional machine learning에서의 feature는 hand-crafted feature의 형태로 많이 사용되었다. 딥러닝에서 CNN이 적용되고 나서는, feature를 가장 적절하게 찾아내는 convolution filter를 자동적으로 구축할 수 있는 형태로 사용된다. 1. 2. Convolution Operation convolution의 동작 원리는 아래의 그림과 같다. 입력 데이터에 filter를 맞추어 element-wise multiply를 계산하고, 이를 각 칸에 맞게 ..

1. Curse of Dimensionality 이번 블로그에서는 데이터의 차원이 높아짐에 따라 데이터가 희소하게 분포하게 되는 문제에 대해 설명한다. 아래의 그림에서 1차원일 때, 2차원일 때, 3차원일 때의 분포를 살펴보자. 보통 모든 점들을 학습하기 위해서 모든 구역들을 살펴보아야 하는데, 3차원의 경우에는 빈 공간이 많아져 불필요한 학습을 하게된다. 따라서 차원이 높을수록 데이터는 희소하게 분포하게 되어 학습이 어려워진다. 그렇다고 차원이 무작정적으로 낮으면 데이터를 구분하는 특징을 추출할 수 없다. 아래의 그림에서 1차원일 경우에는 같은 칸에 있는 점들을 다 같은 점이라고 생각할 것이다. 따라서 적절한 차원을 찾는 것이 필요하다. 정리하자면, 같은 정보의 데이터를 표현할 때 차원이 높아질수록..

0. Introduction 딥러닝의 목적은 가상의 함수를 모사하여 원하는 출력 값을 반환하는 신경망의 파라미터를 찾고자 하는 것이다. 따라서 지금까지 gradient descent, back-propagation, feature vector 등에 대해 다뤄보았다. 이 생각을 확장시켜야 한다. 세상은 확률에 기반한다. 예를 들어 아래의 그림과 같은 모호한 그림을 보았을 때, 토끼라고 인식할 확률과 오리라고 인식할 확률을 비교하여 더 높은 확률을 가지는 쪽으로 인식하게 된다. 이러한 것도 확률분포라고 할 수 있다. 지금까지는 함수를 모사하는 것이었지만 앞으로는 확률분포를 모사하도록 학습시켜야 한다. 함수를 모사하는 방법에서는 deterministic target 값을 예측했었다. 시야를 조금 더 넓혀..

1. Binary Classification 이진 분류로 Logistic Regression과 같이 입력에 대해서 출력을 1 또는 0으로 출력한다. Threshold를 기준으로 1과 0을 출력하는데, 이때 threshold는 보통 0.5이고 때에 따라 달라질 수 있다. 2. Tradeoff by Thresholding 상황에 따라서 threshold를 다르게 설정할 수 있다. 예를 들어 아래의 그림과 같이 True와 False를 나타내는 확률 밀도가 있을 때 이를 나누는 기점을 True 그래프와 False 그래프의 교점으로 설정할 수 있지만, 더 보수적으로 True나 False를 설정하기 위해서는 교점을 threshold로 설정하는 것이 아니라 다른 지점을 설정해야 한다. 보수적으로 true라고 판단하..

1. Overfitting training error가 generalization error에 비해 현격히 낮아지는 현상을 Overfitting(과적합)이라고 한다. 모델이 Training set에 너무 최적화되어 있어서 새로운 데이터에 대해 최적화되지 못하게 되는 것을 의미한다. 즉, 학습 데이터의 불필요한 bias, noise까지 모두 학습하는 것이다. 반대로 Underfitting은 모델의 capacity(depth & width)가 부족하여 training error가 충분히 낮지 않은 현상을 의미한다. Overfitting에서는 모델의 capacity를 줄이거나 과도하게 최적화된 파라미터를 사용해서는 안 되고, Underfitting에서는 모델의 capacity를 늘려 학습을 해야 한다. 아래의..

1. Model Parameter model parameter는 모델 내부의 설정의 값으로, 데이터에 의해 값이 정해지고 학습에 의해 값이 변경된다. 즉 사용자로 인해 변경되는 값이 아니다. 이를 딥러닝에서는 Network Weight Parameter라고도 부른다. 그렇다면 모델 외부의 설정 값은 어떤 것이 있을까? 2. Hyper-Parameter hyper-parameter는 모델 외부의 설정값으로, 사용자에 의해서 결정된다. 이 파라미터도 모델의 외부값이지만 모델의 성능을 좌우할 수 있다. 데이터와 모델의 방향성 및 목적에 따라 최적의 값이 다르므로, 보통 Heuristic한 방법에 의해 찾게 된다. 아래는 모두 hyper-parameter이다. Network Depth & Width: 모델의..