일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Notice
Recent Posts
- Today
- Total
Tags
- activation function
- AdaGrad
- adaptive learning rate
- arithmetic reasoning
- Attention is all you need
- attention mechanism
- auto encoder
- Back Propagation Trough Time
- Backpropagation
- Bayes Theorem
- BCE
- Bert
- Bidirectional Encoder Representation from Transformer
- Binary classification
- BPTT
- Chain-of-Thought
- CNN
- commonsense reasoning
- Computer Vision
- Confusion Matrix
- convolutional neural network
- Cot
- cot reasoning
- counting
- Cross Entropy Loss
- deep learning
- degradation
- Dimension Reduction
- Few-shot
- fine-tuning
목록Attention is all you need (1)
데이터 분석 일지

본 논문에서는 최초로 Attention Mechanism만 기반으로 하는 모델, Transformer를 제시했다. Transformer로 인하여 NLP 분야는 굉장히 발전하였고, BERT와 GPT도 모두 Transformer의 encoder, decoder 구조를 사용한다. 1. Introduction 이전까지는 Attention mechanism과 RNN 또는 CNN을 함께 사용하는 경우가 많았다. 하지만 이는 RNN의 순차 처리로 인하여 장기의존성 문제가 발생한다. RNN은 은닉층을 사용하는데, 이 은닉층의 output인 h_t는 h_(t - 1)와 input_t를 input으로 받아 함수를 적용하는 구조를 가지고 있다. 이때 구조 특성상 이전 정보인 h_(t - 1)를 모두 저장해야하기 때문에 메모..
Paper Review/Natural Language Processing
2024. 1. 27. 11:18