일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Today
- Total
- activation function
- AdaGrad
- adaptive learning rate
- arithmetic reasoning
- Attention is all you need
- attention mechanism
- auto encoder
- Back Propagation Trough Time
- Backpropagation
- Bayes Theorem
- BCE
- Bert
- Bidirectional Encoder Representation from Transformer
- Binary classification
- BPTT
- Chain-of-Thought
- CNN
- commonsense reasoning
- Computer Vision
- Confusion Matrix
- convolutional neural network
- Cot
- cot reasoning
- counting
- Cross Entropy Loss
- deep learning
- degradation
- Dimension Reduction
- Few-shot
- fine-tuning
목록NLP (3)
데이터 분석 일지

이전 CoT 논문을 통해 pre-trained된 model로 few-shot을 사용하더라도 reasoning ability를 이끌어내는 능력이 중요함을 보였다. 하지만 few-shot을 사용한다면 hand-crafted examplar가 필요하다는 단점이 있었다. 이를 보완하기 위하여 본 논문에서는 answer 전에 "Let's think step by step"이라는 prompting을 추가하여 zero-shot으로도 상당한 성능 향상을 보이며 reasoning ability를 이끌어낸다. 이 기법을 Zero-shot CoT라고 표기한다. 1. Introduction 이전 CoT 논문*에서는 Figure 1과 같이 few-shot을 사용하여 추론할 수 있도록 example을 주었다. 이로써 pre-t..

당시에는 큰 text corpus를 pre-train하고 task-specific한 fine-tuning을 수행하여 굉장한 성능을 보였다. task와 무관한 data로 pre-train을 수행하다 보니 많은 양의 task-specific한 data까지 필요하게 되었다. 본 논문에서는 task-specific한 fine-tuning 없이, 즉 pre-train 이후에 파라미터 업데이트 없이, 몇 가지의 sample을 가지고 model을 여러 task에 적용하는 방법인 few-shot을 사용한 GPT-3를 제시한다. 1. Introduction 당시의 연구 경향은 downstream task와 무관한 data를 사용한 pre-trained language representation을 task-specifi..

보통 language model task-specific한 supervision을 사용한다. 이는 supervised의 형태를 띠는 fine-tuning을 주로 사용한 다는 의미이다. 본 논문은 zero-shot을 사용하여 명확한 supervision이 없는 model을 제시한다. 실제로 127,000개 이하의 데이터를 사용함에도 불구하고 좋은 성능을 성취하였다. 본 논문의 GPT-2는 1.5B개의 parameter를 가진다. 8개의 task 중 7개의 task에서 SOTA를 달성하였지만, WebText에 대해서는 일반화 능력이 부족하였다. 1. Introduction ML은 계속 빠르게 발전하고 있다. 여기서 ML은 보통 큰 dataset을 사용하고, high-capacity를 가지는 model이다. ..