BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
1 minute read

Motivation

Language model pre-training 은 여러 NLP task 에서 효과적인 것으로 검증되었다. Pretrained language representation 을 downstream task 에 적용하는 방법은 크게 feature-basedfine-tuning 두가지로 나눌 수 있다. Feature-based approach 에는 대표적으로 pretraining 을 통해 얻은 representation 을 추가적인 feature 로 사용하는 ELMo (Peters et al., 2018a)가 있고, fine-tuning approach 에는 pretraining 에서 학습된 모델을 통째로 가져와 downstream task 에 fine-tuning 하는 OpenAI GPT (Radford et al., 2018) 가 있다.

이러한 기존의 방법은 unidirectional LM 만을 고려해 학습이 되었다는 점에서 sentence level task (e.g. NLI, paraphrasing) 나 양측 context 를 모두 고려해야하는 task 에는 suboptimal 하다.

Differences

본 논문에서는 BERT (Bidirectional Encoder Representations from Transformers) 구조를 제안한다.

BERT 의 가장 큰 특징은 기존의 LM objective 에서 벗어나 masked language model 이라는 새로운 pretraining objective 를 사용한다는 점이다. Masked language model 은 input 의 일부 token 을 무작위로 마스킹하여 가려진 단어를 기존의 vocabulary 중에서 맞히는 과제이다.

Method

Results

Recent Posts

Matrix Calculus
Inverted Indexing
Deep Contextualized Word Representations
Pretraining-Based Natural Language Generation for Text Summarization
Style Transfer from Non-Parallel Text by Cross-Alignment