'Lecture or Textbook Review/Deep Learning' 카테고리의 글 목록 (2 Page)

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Notice

※ 수식 깨짐 공지사항

Recent Posts

Today

Total

Tags more

관리 메뉴

목록Lecture or Textbook Review/Deep Learning (17)

데이터 분석 일지

[Deep Learning] Overfitting (과적합)

1. Overfitting training error가 generalization error에 비해 현격히 낮아지는 현상을 Overfitting(과적합)이라고 한다. 모델이 Training set에 너무 최적화되어 있어서 새로운 데이터에 대해 최적화되지 못하게 되는 것을 의미한다. 즉, 학습 데이터의 불필요한 bias, noise까지 모두 학습하는 것이다. 반대로 Underfitting은 모델의 capacity(depth & width)가 부족하여 training error가 충분히 낮지 않은 현상을 의미한다. Overfitting에서는 모델의 capacity를 줄이거나 과도하게 최적화된 파라미터를 사용해서는 안 되고, Underfitting에서는 모델의 capacity를 늘려 학습을 해야 한다. 아래의..

Lecture or Textbook Review/Deep Learning 2024. 2. 3. 16:15

[Deep Learning] Hyper-Parameter & Optimizer

1. Model Parameter model parameter는 모델 내부의 설정의 값으로, 데이터에 의해 값이 정해지고 학습에 의해 값이 변경된다. 즉 사용자로 인해 변경되는 값이 아니다. 이를 딥러닝에서는 Network Weight Parameter라고도 부른다. 그렇다면 모델 외부의 설정 값은 어떤 것이 있을까? 2. Hyper-Parameter hyper-parameter는 모델 외부의 설정값으로, 사용자에 의해서 결정된다. 이 파라미터도 모델의 외부값이지만 모델의 성능을 좌우할 수 있다. 데이터와 모델의 방향성 및 목적에 따라 최적의 값이 다르므로, 보통 Heuristic한 방법에 의해 찾게 된다. 아래는 모두 hyper-parameter이다. Network Depth & Width: 모델의..

Lecture or Textbook Review/Deep Learning 2024. 2. 2. 17:58

[Deep Learning] SGD (Stochastic Gradient Descent)

0. Currently, what we do 모든 sample에 대해서 gradient descent를 통해 1개의 파라미터를 업데이트할 때 드는 비용은 효율적이지 못하다. sample이 많으면 많을 수록 모든 파라미터를 미분하는 것이 1번의 업데이트이기 때문이다. 따라서 이를 효율적인 방법으로 gradient descent를 구하기 위하여 SGD를 사용한다. 1. SGD (Stochastic Gradient Descent)1st update from random k sample loss2nd update from another random k sample loss 2. Epoch & Iteration1 Epoch: 모든 N개의 데이터셋의 샘플들이 forward & backward 되는 시점이다. E..

Lecture or Textbook Review/Deep Learning 2024. 1. 31. 23:09

[Deep Learning] Regression

1. Motivation 실생활에서는 선형 데이터보다 비선형 데이터가 더 많이 존재한다. → 비선형 함수를 어떻게 만들 수 있을까?아래의 식과 같이 선형 함수 두 개를 이어 붙이는 경우에도 선형 함수가 나온다. $n = x \cdot W_{1} + b_{1}$ $y = n \cdot W_{2} + b_{2} = x \cdot W_{1} \cdot W_{2} + b_{1} \cdot W_{1} + b_{2}$ 2. In Logistic Regression 마지막 sigmoid 함수를 통해 매우 작은 값은 0에, 매우 큰 값은 1에 수렴하도록 할 수 있다. 3. Adding Non-linearity: 레이어 사이에 비선형 활성 함수 추가 4. Network Capacity 깊이와 너비를 넓게 할수록 신경망의 표현력은 좋아진다. 보통 너비는 입력보다 출력이 더 작은 형..

Lecture or Textbook Review/Deep Learning 2024. 1. 31. 21:55

[Deep Learning] Logistic Regression (로지스틱 회귀)

1. Structure of Logistic RegressionLinear Regression과 비슷한 구조이지만, Linear Layer를 거친 후 Sigmoid 함수를 통과시킨다. Sigmoid 함수를 사용하기 때문에 1(True)과 0(False) 사잇값을 출력한다. 2. Activation FunctionSigmoid 함수: 0에서 1 사잇값을 출력하는 함수TanH 함수: -1에서 1 사잇값을 출력하는 함수 3. Parameter Optimization using Gradient Descent Linear Regression과 구조는 같지만 Sigmoid 함수를 추가함으로써 이름은 회귀이지만 사실상 이진 분류 문제라고 봐도 무방하다. 이진 분류 문제라고 생각한다면 BCE Loss Fuction을 ..

Lecture or Textbook Review/Deep Learning 2024. 1. 23. 16:52

[Deep Learning] Linear Regression (선형 회귀)

0. Purpose 선형 데이터에서 올바른 예측을 하기 위하여 Loss 값을 최소화시키는 방향으로 파라미터를 업데이트해야 한다. Gradient Descent를 사용하여 최적의 선형 그래프를 찾는 것이 목표이다. 1. Parameter Optimization using Gradient Descent 총 데이터 수는 N개이며 입력 데이터는 n차원이고 출력 데이터가 m차원일 때, 각 입력 데이터마다 출력 데이터가 있으므로 각 데이터 쌍은 아래의 수식과 같이 표현할 수 있다. $D = (x_{i}, y_{i})_{i = 1}^{N}$ 선형회귀는 위의 그림과 같이 입력 데이터가 선형 레이어를 지나 예측 데이터 y_i_hat을 도출해 내면 실제 출력 데이터 y_i와의 Loss 값을 구하고, Loss를 최소..

Lecture or Textbook Review/Deep Learning 2024. 1. 23. 16:08

[Deep Learning] 기초 최적화 방법: Gradient Descent

1. 다변수 함수 여러 개의 변수를 입력으로 받는 함수를 다변수 함수라고 한다. 2. 편미분 편미분은 다변수 x와 y를 입력으로 받는 함수 f를 x로 미분할 경우, 하나의 변수만 남겨 놓고 나머지를 상수 취급하는 미분 방법이다. 이때의 미분 결과로는 벡터를 얻게 된다.함수 f를 x 변수로 미분하는 경우 $\frac{\partial f}{\partial x} = lim_{h \to 0} \frac{f (x + h, y) - f (x, y)}{(x + h) - x}$ 3. 스칼리와 벡터의 미분 3. 1. 스칼라를 벡터로 미분 (결과 = gradient 벡터)$$ \frac{ \partial f}{ \partial x} = \nabla_xf = \begin{bmatrix}\frac{ \p..

Lecture or Textbook Review/Deep Learning 2024. 1. 22. 20:20

[Deep Learning] 신경망 학습 성능 판단

1. Loss(손실값) 원하는 출력값(target, y)과 실제 출력값(output, y_hat)의 차이의 합 $L o s s = \sum_{i = 1}^{N} ∥ y_{i} - \hat{y_{i}} ∥= \sum_{i = 1}^{N} ∥ y_{i} - f (x_{i}) ∥$ Loss가 작을 수록 좋은 성능을 보인다. 따라서 제일 작은 Loss를 가지는 Linear Layer가 최적의 신경망이 되는 것이다. 2. Loss FuctionLinear Layer의 파라미터를 바꿀 때마다 Loss를 계산입력: Linear Layer의 파라미터출력: Loss$$L( \theta ) = \sum_{i = 1}^N \parallel y_i - f(x_i) \par..

Lecture or Textbook Review/Deep Learning 2024. 1. 22. 19:24

이전 Prev 1 2 3 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 분석 일지

목록Lecture or Textbook Review/Deep Learning (17)

데이터 분석 일지

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역