'NLP' 태그의 글 목록

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Notice

※ 수식 깨짐 공지사항

Recent Posts

Today

Total

Tags more

관리 메뉴

목록NLP (3)

데이터 분석 일지

[Paper Review] Zero-shot CoT: Large Language Models are Zero-Shot Reasoners

이전 CoT 논문을 통해 pre-trained된 model로 few-shot을 사용하더라도 reasoning ability를 이끌어내는 능력이 중요함을 보였다. 하지만 few-shot을 사용한다면 hand-crafted examplar가 필요하다는 단점이 있었다. 이를 보완하기 위하여 본 논문에서는 answer 전에 "Let's think step by step"이라는 prompting을 추가하여 zero-shot으로도 상당한 성능 향상을 보이며 reasoning ability를 이끌어낸다. 이 기법을 Zero-shot CoT라고 표기한다. 1. Introduction 이전 CoT 논문*에서는 Figure 1과 같이 few-shot을 사용하여 추론할 수 있도록 example을 주었다. 이로써 pre-t..

Paper Review/Natural Language Processing 2024. 6. 11. 15:56

[Paper Review] GPT-3: Language Models are Few-Shot Learners

당시에는 큰 text corpus를 pre-train하고 task-specific한 fine-tuning을 수행하여 굉장한 성능을 보였다. task와 무관한 data로 pre-train을 수행하다 보니 많은 양의 task-specific한 data까지 필요하게 되었다. 본 논문에서는 task-specific한 fine-tuning 없이, 즉 pre-train 이후에 파라미터 업데이트 없이, 몇 가지의 sample을 가지고 model을 여러 task에 적용하는 방법인 few-shot을 사용한 GPT-3를 제시한다. 1. Introduction 당시의 연구 경향은 downstream task와 무관한 data를 사용한 pre-trained language representation을 task-specifi..

Paper Review/Natural Language Processing 2024. 5. 14. 21:53

[Paper Review] GPT-2: Language Models are Unsupervised Multitask Learners

보통 language model task-specific한 supervision을 사용한다. 이는 supervised의 형태를 띠는 fine-tuning을 주로 사용한 다는 의미이다. 본 논문은 zero-shot을 사용하여 명확한 supervision이 없는 model을 제시한다. 실제로 127,000개 이하의 데이터를 사용함에도 불구하고 좋은 성능을 성취하였다. 본 논문의 GPT-2는 1.5B개의 parameter를 가진다. 8개의 task 중 7개의 task에서 SOTA를 달성하였지만, WebText에 대해서는 일반화 능력이 부족하였다. 1. Introduction ML은 계속 빠르게 발전하고 있다. 여기서 ML은 보통 큰 dataset을 사용하고, high-capacity를 가지는 model이다. ..

Paper Review/Natural Language Processing 2024. 4. 18. 14:32

이전 Prev 1 Next 다음

목록NLP (3)

데이터 분석 일지

티스토리툴바