일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Notice
Recent Posts
- Today
- Total
Tags
- activation function
- AdaGrad
- adaptive learning rate
- arithmetic reasoning
- Attention is all you need
- attention mechanism
- auto encoder
- Back Propagation Trough Time
- Backpropagation
- Bayes Theorem
- BCE
- Bert
- Bidirectional Encoder Representation from Transformer
- Binary classification
- BPTT
- Chain-of-Thought
- CNN
- commonsense reasoning
- Computer Vision
- Confusion Matrix
- convolutional neural network
- Cot
- cot reasoning
- counting
- Cross Entropy Loss
- deep learning
- degradation
- Dimension Reduction
- Few-shot
- fine-tuning
목록In-Context Learning (1)
데이터 분석 일지

당시에는 큰 text corpus를 pre-train하고 task-specific한 fine-tuning을 수행하여 굉장한 성능을 보였다. task와 무관한 data로 pre-train을 수행하다 보니 많은 양의 task-specific한 data까지 필요하게 되었다. 본 논문에서는 task-specific한 fine-tuning 없이, 즉 pre-train 이후에 파라미터 업데이트 없이, 몇 가지의 sample을 가지고 model을 여러 task에 적용하는 방법인 few-shot을 사용한 GPT-3를 제시한다. 1. Introduction 당시의 연구 경향은 downstream task와 무관한 data를 사용한 pre-trained language representation을 task-specifi..
Paper Review/Natural Language Processing
2024. 5. 14. 21:53