일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Today
- Total
- activation function
- AdaGrad
- adaptive learning rate
- arithmetic reasoning
- Attention is all you need
- attention mechanism
- auto encoder
- Back Propagation Trough Time
- Backpropagation
- Bayes Theorem
- BCE
- Bert
- Bidirectional Encoder Representation from Transformer
- Binary classification
- BPTT
- Chain-of-Thought
- CNN
- commonsense reasoning
- Computer Vision
- Confusion Matrix
- convolutional neural network
- Cot
- cot reasoning
- counting
- Cross Entropy Loss
- deep learning
- degradation
- Dimension Reduction
- Few-shot
- fine-tuning
목록Paper Review/Natural Language Processing (7)
데이터 분석 일지

이전 CoT 논문을 통해 pre-trained된 model로 few-shot을 사용하더라도 reasoning ability를 이끌어내는 능력이 중요함을 보였다. 하지만 few-shot을 사용한다면 hand-crafted examplar가 필요하다는 단점이 있었다. 이를 보완하기 위하여 본 논문에서는 answer 전에 "Let's think step by step"이라는 prompting을 추가하여 zero-shot으로도 상당한 성능 향상을 보이며 reasoning ability를 이끌어낸다. 이 기법을 Zero-shot CoT라고 표기한다. 1. Introduction 이전 CoT 논문*에서는 Figure 1과 같이 few-shot을 사용하여 추론할 수 있도록 example을 주었다. 이로써 pre-t..

arithmetic, commonsense reasoning, simbolic reasoning과 같이 단순한 모델의 scaling up만으로 성능이 향상되지 않는 task들을 잘 수행하기 위해 본 논문은 Chain-of-Thought를 제시한다. Chain-of-Thought는 natural language task의 결과를 도출하기 위한 추론 단계를 의미한다. 1. Introduction 당시까지는 모델을 scaling up하는 것만으로도 task 수행 능력이 향상하였다. 하지만 단순 예측에서 끝나는 것이 아니라 단어의 의미를 이해하고 추론해야 하는 task들은 단순 scaling up에도 충분한 성능 향상이 일어나지 않았다. 본 논문은 이런 task들로 artihmetic, commonsense ..

당시에는 큰 text corpus를 pre-train하고 task-specific한 fine-tuning을 수행하여 굉장한 성능을 보였다. task와 무관한 data로 pre-train을 수행하다 보니 많은 양의 task-specific한 data까지 필요하게 되었다. 본 논문에서는 task-specific한 fine-tuning 없이, 즉 pre-train 이후에 파라미터 업데이트 없이, 몇 가지의 sample을 가지고 model을 여러 task에 적용하는 방법인 few-shot을 사용한 GPT-3를 제시한다. 1. Introduction 당시의 연구 경향은 downstream task와 무관한 data를 사용한 pre-trained language representation을 task-specifi..

보통 language model task-specific한 supervision을 사용한다. 이는 supervised의 형태를 띠는 fine-tuning을 주로 사용한 다는 의미이다. 본 논문은 zero-shot을 사용하여 명확한 supervision이 없는 model을 제시한다. 실제로 127,000개 이하의 데이터를 사용함에도 불구하고 좋은 성능을 성취하였다. 본 논문의 GPT-2는 1.5B개의 parameter를 가진다. 8개의 task 중 7개의 task에서 SOTA를 달성하였지만, WebText에 대해서는 일반화 능력이 부족하였다. 1. Introduction ML은 계속 빠르게 발전하고 있다. 여기서 ML은 보통 큰 dataset을 사용하고, high-capacity를 가지는 model이다. ..

본 논문에서는 BERT(Bidirectional Encoder Representations from Transformers)라는 language representation model을 제시한다. BERT는 모든 계층에서 left & right context를 조정하여 unlabeled text에서 심층 양방향 표현을 pre-train하기 위해 설계되었다. 결과적으로 pre-train된 BERT는 광범위한 task에 대해 하나의 추가적인 output layer만 가지고 fine-tune할 수 있다. 1. Introduction 언어 모델을 pre-training하는 것은 많은 natural language processing task에서 성능 향상을 보였다. downstream task에 pre-train..

본 논문에서는 Unlabeled data를 비지도학습을 사용하여 Generative Pre-Training하고, 지도학습을 사용하여 Discriminative Fine-Tuning을 거쳐 task를 수행하는 GPT-1을 제시한다. 본 연구에서는 최소한의 모델 변경을 목표로 한다. 1. Introduction NLP에서 가공되지 않은 문장으로부터 효과적으로 학습할 수 있는 능력은 지도학습에만 의존하는 것을 완화하는 데에 중요하다. 본 연구에서는 unlabeled data에서 언어 정보를 활용할 수 있는 모델을 개발하는 것을 목적으로 둔다. 이러한 모델은 추가적인 annotation을 수집할 때 많은 시간과 비용을 아낄 수 있게 한다. 게다가 supervision이 가능한 경우에도, 비지도학습에서 좋은 re..

본 논문에서는 최초로 Attention Mechanism만 기반으로 하는 모델, Transformer를 제시했다. Transformer로 인하여 NLP 분야는 굉장히 발전하였고, BERT와 GPT도 모두 Transformer의 encoder, decoder 구조를 사용한다. 1. Introduction 이전까지는 Attention mechanism과 RNN 또는 CNN을 함께 사용하는 경우가 많았다. 하지만 이는 RNN의 순차 처리로 인하여 장기의존성 문제가 발생한다. RNN은 은닉층을 사용하는데, 이 은닉층의 output인 h_t는 h_(t - 1)와 input_t를 input으로 받아 함수를 적용하는 구조를 가지고 있다. 이때 구조 특성상 이전 정보인 h_(t - 1)를 모두 저장해야하기 때문에 메모..