일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Today
- Total
- activation function
- AdaGrad
- adaptive learning rate
- arithmetic reasoning
- Attention is all you need
- attention mechanism
- auto encoder
- Back Propagation Trough Time
- Backpropagation
- Bayes Theorem
- BCE
- Bert
- Bidirectional Encoder Representation from Transformer
- Binary classification
- BPTT
- Chain-of-Thought
- CNN
- commonsense reasoning
- Computer Vision
- Confusion Matrix
- convolutional neural network
- Cot
- cot reasoning
- counting
- Cross Entropy Loss
- deep learning
- degradation
- Dimension Reduction
- Few-shot
- fine-tuning
목록Lecture or Textbook Review/Deep Learning (17)
데이터 분석 일지

1. Overfitting training error가 generalization error에 비해 현격히 낮아지는 현상을 Overfitting(과적합)이라고 한다. 모델이 Training set에 너무 최적화되어 있어서 새로운 데이터에 대해 최적화되지 못하게 되는 것을 의미한다. 즉, 학습 데이터의 불필요한 bias, noise까지 모두 학습하는 것이다. 반대로 Underfitting은 모델의 capacity(depth & width)가 부족하여 training error가 충분히 낮지 않은 현상을 의미한다. Overfitting에서는 모델의 capacity를 줄이거나 과도하게 최적화된 파라미터를 사용해서는 안 되고, Underfitting에서는 모델의 capacity를 늘려 학습을 해야 한다. 아래의..

1. Model Parameter model parameter는 모델 내부의 설정의 값으로, 데이터에 의해 값이 정해지고 학습에 의해 값이 변경된다. 즉 사용자로 인해 변경되는 값이 아니다. 이를 딥러닝에서는 Network Weight Parameter라고도 부른다. 그렇다면 모델 외부의 설정 값은 어떤 것이 있을까? 2. Hyper-Parameter hyper-parameter는 모델 외부의 설정값으로, 사용자에 의해서 결정된다. 이 파라미터도 모델의 외부값이지만 모델의 성능을 좌우할 수 있다. 데이터와 모델의 방향성 및 목적에 따라 최적의 값이 다르므로, 보통 Heuristic한 방법에 의해 찾게 된다. 아래는 모두 hyper-parameter이다. Network Depth & Width: 모델의..

0. Currently, what we do 모든 sample에 대해서 gradient descent를 통해 1개의 파라미터를 업데이트할 때 드는 비용은 효율적이지 못하다. sample이 많으면 많을 수록 모든 파라미터를 미분하는 것이 1번의 업데이트이기 때문이다. 따라서 이를 효율적인 방법으로 gradient descent를 구하기 위하여 SGD를 사용한다. 1. SGD (Stochastic Gradient Descent)1st update from random k sample loss2nd update from another random k sample loss 2. Epoch & Iteration1 Epoch: 모든 N개의 데이터셋의 샘플들이 forward & backward 되는 시점이다. E..

1. Motivation 실생활에서는 선형 데이터보다 비선형 데이터가 더 많이 존재한다. → 비선형 함수를 어떻게 만들 수 있을까?아래의 식과 같이 선형 함수 두 개를 이어 붙이는 경우에도 선형 함수가 나온다.

1. Structure of Logistic RegressionLinear Regression과 비슷한 구조이지만, Linear Layer를 거친 후 Sigmoid 함수를 통과시킨다. Sigmoid 함수를 사용하기 때문에 1(True)과 0(False) 사잇값을 출력한다. 2. Activation FunctionSigmoid 함수: 0에서 1 사잇값을 출력하는 함수TanH 함수: -1에서 1 사잇값을 출력하는 함수 3. Parameter Optimization using Gradient Descent Linear Regression과 구조는 같지만 Sigmoid 함수를 추가함으로써 이름은 회귀이지만 사실상 이진 분류 문제라고 봐도 무방하다. 이진 분류 문제라고 생각한다면 BCE Loss Fuction을 ..

0. Purpose 선형 데이터에서 올바른 예측을 하기 위하여 Loss 값을 최소화시키는 방향으로 파라미터를 업데이트해야 한다. Gradient Descent를 사용하여 최적의 선형 그래프를 찾는 것이 목표이다. 1. Parameter Optimization using Gradient Descent 총 데이터 수는 N개이며 입력 데이터는 n차원이고 출력 데이터가 m차원일 때, 각 입력 데이터마다 출력 데이터가 있으므로 각 데이터 쌍은 아래의 수식과 같이 표현할 수 있다.

1. 다변수 함수 여러 개의 변수를 입력으로 받는 함수를 다변수 함수라고 한다. 2. 편미분 편미분은 다변수 x와 y를 입력으로 받는 함수 f를 x로 미분할 경우, 하나의 변수만 남겨 놓고 나머지를 상수 취급하는 미분 방법이다. 이때의 미분 결과로는 벡터를 얻게 된다.함수 f를 x 변수로 미분하는 경우
1. Loss(손실값) 원하는 출력값(target, y)과 실제 출력값(output, y_hat)의 차이의 합