Deep Contextualized Word Representations
1 minute read

Motivation

Pre-trained word representation 은 많은 NLP task 에서 사용되고 있지만 단어의 문법적, 의미적 특징을 담고 있으면서 문맥적인 의미까지 풍부하게 반영하지는 못하는 경우가 많다.

Differences

Top layer 만 사용했던 기존 방법론 (CoVe) 과 달리 Representation 을 만드는데에 LSTM 구조의 모든 internal layer 를 사용한다.

Method

Forward LM, Backward LM 을 동시에 고려한 biLM 모델을 학습한다. (ELMo : Embeddings from Language Models)

$L$-layer biLM 모델을 가정할 때 토큰 $t_k$ 의 representation 을 얻기 위해 다음과 같이 총 $(2L + 1)$ 개의 representation 을 계산할 수 있다. 여기서 $\mathbf{x}_k^{LM}$ 은 context 와 independent 한 단어의 embedding 이다 (character 에 대해 CNN 구조 사용).

이 $(2L + 1)$ 개의 representation 을 다양한 방식으로 조합해 $t_k$ 의 representation 을 구할 수 있다. ELMo 에서는 다음과 같이 weighted sum 을 사용한다.

$\gamma^{task}$ 는 scaling 을 통해 최적화 과정을 돕기위해 도입된 파라미터이다.

Results

nn

Recent Posts

Matrix Calculus
Inverted Indexing
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Pretraining-Based Natural Language Generation for Text Summarization
Style Transfer from Non-Parallel Text by Cross-Alignment