일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Today
- Total
- activation function
- AdaGrad
- adaptive learning rate
- arithmetic reasoning
- Attention is all you need
- attention mechanism
- auto encoder
- Back Propagation Trough Time
- Backpropagation
- Bayes Theorem
- BCE
- Bert
- Bidirectional Encoder Representation from Transformer
- Binary classification
- BPTT
- Chain-of-Thought
- CNN
- commonsense reasoning
- Computer Vision
- Confusion Matrix
- convolutional neural network
- Cot
- cot reasoning
- counting
- Cross Entropy Loss
- deep learning
- degradation
- Dimension Reduction
- Few-shot
- fine-tuning
목록전체 글 (36)
데이터 분석 일지

1. Curse of Dimensionality 이번 블로그에서는 데이터의 차원이 높아짐에 따라 데이터가 희소하게 분포하게 되는 문제에 대해 설명한다. 아래의 그림에서 1차원일 때, 2차원일 때, 3차원일 때의 분포를 살펴보자. 보통 모든 점들을 학습하기 위해서 모든 구역들을 살펴보아야 하는데, 3차원의 경우에는 빈 공간이 많아져 불필요한 학습을 하게된다. 따라서 차원이 높을수록 데이터는 희소하게 분포하게 되어 학습이 어려워진다. 그렇다고 차원이 무작정적으로 낮으면 데이터를 구분하는 특징을 추출할 수 없다. 아래의 그림에서 1차원일 경우에는 같은 칸에 있는 점들을 다 같은 점이라고 생각할 것이다. 따라서 적절한 차원을 찾는 것이 필요하다. 정리하자면, 같은 정보의 데이터를 표현할 때 차원이 높아질수록..

0. Introduction 시계열 데이터를 분석하는 과정에서 가장 먼저 해야 하는 것은 데이터를 그래프로 나타내는 것이다. 그래프는 패턴, 특이값, 시간에 따른 변화, 변수 사이의 관계 등의 데이터의 많은 특징을 볼 수 있게 해 준다. 데이터의 종류에 따라서 어떤 그래프로 시각화해야 할지 결정하고, 그래프에서 보이는 특징을 고려하여 예측 모델을 결정한다. 본 챕터에서는 R 패키지를 이용하여 데이터를 다뤄보고, 이를 시각화하는 절차로 설명한다. 1. ts Objects 시계열은 각 숫자가 기록된 시간에 관한 정보가 있는 숫자들의 목록이라고 생각할 수 있다. R 패키지에서는 이러한 정보를 ts 객체를 사용하여 저장할 수 있다. 만약 아래와 같은 관측값을 가지고 있다고 해보자. 위 관측값을 ts() 함수를 ..

0. Introduction 딥러닝의 목적은 가상의 함수를 모사하여 원하는 출력 값을 반환하는 신경망의 파라미터를 찾고자 하는 것이다. 따라서 지금까지 gradient descent, back-propagation, feature vector 등에 대해 다뤄보았다. 이 생각을 확장시켜야 한다. 세상은 확률에 기반한다. 예를 들어 아래의 그림과 같은 모호한 그림을 보았을 때, 토끼라고 인식할 확률과 오리라고 인식할 확률을 비교하여 더 높은 확률을 가지는 쪽으로 인식하게 된다. 이러한 것도 확률분포라고 할 수 있다. 지금까지는 함수를 모사하는 것이었지만 앞으로는 확률분포를 모사하도록 학습시켜야 한다. 함수를 모사하는 방법에서는 deterministic target 값을 예측했었다. 시야를 조금 더 넓혀..

1. What can be forecast? 우리의 삶 속 다양한 경우에서 예측이 필요하다. 어떤 것을 예측할 때에 내일 해가 뜨는 시간처럼 예측하기 쉬운 것도 있지만 로또 번호처럼 아예 예측이 불가능한 경우도 있다. 이러한 어떤 사건이나 수량의 예측가능성은 아래의 세 가지 요인에 의존한다. 영향을 주는 요인을 얼마나 잘 이해할 수 있는지 사용할 수 있는 데이터가 얼마나 많은지 미래가 과거가 얼마나 비슷한지 예측이 우리가 예측하려는 것에 영향을 줄 수 있는지 예측에서 핵심적인 과정은 정확한 예측이 가능한 때와 불가능한 때가 언제인지를 아는 것이다. 좋은 예측은 과거 데이터의 핵심적인 패턴을 추출하고 다시 반복되지 않을 패턴을 모사해선 안 된다. 따라서 앞으로는 과거 데이터에서 무시해야 하는 무작위적인 패..

0. Motivation of Embeding Vectors NLP에서 단어는 categorical and discrete value의 속성을 가짐으로써 one-hot representation으로 표현한다. 하지만 이러한 one-hot representation은 sparse vector이기 때문에 실제 존재하는 단어 사이의 유사도를 표현할 수 없다. 따라서 이를 해결하기 위하여 Word2Vec를 사용하거나 DNN을 통한 차원 축소 및 dense vector 표현을 사용한다. 이를 vector embedding이라고 한다. 1. Auto Encoder auto encoder는 압축과 해제를 반복하며 특징 추출을 자동으로 학습한다. 아래의 그림과 같이 x라는 입력을 받아 x_hat을 출력할 때, x와 ..

1. 추정의 개요 추정은 모집단에서 추출된 표본의 통계를 통하여 모수를 추측하는 것이다. 여기서 모수를 θ라고 표현하고, 추정값은 θ_hat이라고 표현한다. 1. 1. 종류 추정은 점추정과 구간추정으로 나누어볼 수 있다. 먼저 점추정은 모수를 한 값으로 추정하는 것으로, [A의 지지율이 40%이다]라고 표현하는 것과 같다. 구간추정은 모수를 구간으로 추정하는 것으로, [A의 지지율은 37 ~ 43%이다]라고 표현하는 것과 같다. 추가적으로 점추정은 아래와 같이 추정한다. 모수 θ를 한 값 θ_hat으로 추정 모평균 μ를 표본평균 X_bar로 추정 모분산 σ^2을 표본분산 S^2로 추정 모비율 p를 표본비율 p_hat으로 추정 2. 점추정 모수는 하나의 값이지만 점추정량은 표본의 집합을 여러 경우의 수로 ..
0. 용어 정리 아래는 가설 검정에 대해 설명하기 전 알아야 할 기본 개념들을 설명한다. 모집단(population): 연구나 조사의 대상이 되는 전체 집단이나 집합 모수(parameter): 모집단의 특성을 나타내는 수치적 값 (모평균, 모분산, 모비율 등) 표본(sample): 모집단에서 무작위로 선택된 일부 개체나 단위의 집합 가설(hypothesis): 모수에 대한 주장 (귀무가설, 대립가설) 위 기본 개념을 토대로 가설 검정을 설명한다. 1. 가설 검정의 개요 먼저 모수에 대한 주장을 가설로 세운다. 이 가설이 타당한지에 대해 검정하는 것을 가설 검정이라고 한다. 이는 연구 결과를 통계적으로 평가하고, 특히 표본을 사용하여 모집단에 대한 일반적인 판단을 내리는 데 사용된다. 1. 1. 예시 여론..

본 논문에서는 Unlabeled data를 비지도학습을 사용하여 Generative Pre-Training하고, 지도학습을 사용하여 Discriminative Fine-Tuning을 거쳐 task를 수행하는 GPT-1을 제시한다. 본 연구에서는 최소한의 모델 변경을 목표로 한다. 1. Introduction NLP에서 가공되지 않은 문장으로부터 효과적으로 학습할 수 있는 능력은 지도학습에만 의존하는 것을 완화하는 데에 중요하다. 본 연구에서는 unlabeled data에서 언어 정보를 활용할 수 있는 모델을 개발하는 것을 목적으로 둔다. 이러한 모델은 추가적인 annotation을 수집할 때 많은 시간과 비용을 아낄 수 있게 한다. 게다가 supervision이 가능한 경우에도, 비지도학습에서 좋은 re..