일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Today
- Total
- activation function
- AdaGrad
- adaptive learning rate
- arithmetic reasoning
- Attention is all you need
- attention mechanism
- auto encoder
- Back Propagation Trough Time
- Backpropagation
- Bayes Theorem
- BCE
- Bert
- Bidirectional Encoder Representation from Transformer
- Binary classification
- BPTT
- Chain-of-Thought
- CNN
- commonsense reasoning
- Computer Vision
- Confusion Matrix
- convolutional neural network
- Cot
- cot reasoning
- counting
- Cross Entropy Loss
- deep learning
- degradation
- Dimension Reduction
- Few-shot
- fine-tuning
목록gradient descent (2)
데이터 분석 일지

0. Currently, what we do 모든 sample에 대해서 gradient descent를 통해 1개의 파라미터를 업데이트할 때 드는 비용은 효율적이지 못하다. sample이 많으면 많을 수록 모든 파라미터를 미분하는 것이 1번의 업데이트이기 때문이다. 따라서 이를 효율적인 방법으로 gradient descent를 구하기 위하여 SGD를 사용한다. 1. SGD (Stochastic Gradient Descent)1st update from random k sample loss2nd update from another random k sample loss 2. Epoch & Iteration1 Epoch: 모든 N개의 데이터셋의 샘플들이 forward & backward 되는 시점이다. E..

1. 다변수 함수 여러 개의 변수를 입력으로 받는 함수를 다변수 함수라고 한다. 2. 편미분 편미분은 다변수 x와 y를 입력으로 받는 함수 f를 x로 미분할 경우, 하나의 변수만 남겨 놓고 나머지를 상수 취급하는 미분 방법이다. 이때의 미분 결과로는 벡터를 얻게 된다.함수 f를 x 변수로 미분하는 경우 $$\frac{ \partial f}{ \partial x} = \lim_{h \rightarrow 0} \frac{f(x+h, y) - f(x, y)}{(x+h)-x} $$ 3. 스칼리와 벡터의 미분 3. 1. 스칼라를 벡터로 미분 (결과 = gradient 벡터)$$ \frac{ \partial f}{ \partial x} = \nabla_xf = \begin{bmatrix}\frac{ \p..