Why are Sequence-to-Sequence Models So Dull?
3 minute read

Motivation

Sequence-to-sequence (Seq2Seq) 모델은 response generation task 에서 grammatical 하면서도 fluent 한 응답을 생성한다. 하지만 동시에 생성된 응답의 diversity 가 낮다는 문제점을 가지고 있다 (여기서 diversity 는 corpus-level diversity 를 의미한다. 생성된 응답의 예: “I don’t know.”, “I’m sorry”, “I’m OK.”).

Differences

본 논문에서는 기존 연구에서 다뤄왔던 원인 세가지를 리뷰하면서 새롭게 model over-confidence 를 원인으로 제시한다.

Method

기존 문헌에서는 low-diversity problem 의 원인을 크게 세가지 관점에서 분석하였다.

1. Lack of variability

위 연구들에서는 VAE 구조를 Seq2Seq 모델에 적용하여 모델에 variability 를 가져온다. Generation 시점에 latent variable $z$ 를 LSTM decoder 에 추가적인 input 으로 넣는 것이다. $z$ 가 prior distribution 에서 랜덤 샘플링되는 과정에서 diversity 가 증가한다. 하지만 이 방법은 randomness 가 온전히 $z$ 에 의존하기 때문에 Seq2Seq 모델은 diversity 측면에서 여전히 sub-optimal 하다.

2. Improper objective function

Seq2Seq 모델은 다음과 같은 objective function 을 최대화하는 방향으로 학습된다.

Li et al. (2015) 에서는 이 식이 $p(Y \vert X)$ 를 높이는 응답 Y 를 선호하기 때문에 거기서 low-diversity 문제가 발생하는 것이라고 주장한다. 따라서 아래와 같이 $X$ 와 $Y$ 의 mutual information 을 최대화하도록 학습 목표를 변경하면 이 문제를 해결할 수 있다고 한다.

Maximum Mutual Information (MMI) Objective 는 다음의 두 종류로 정의된다.

MMI Objective 를 사용할 때의 문제점은 $\vert Y \vert$ 와 (두번째 식에서) reverse language model $p(X \vert Y)$ 를 계산하기 위해 일반 Seq2Seq 모델보다도 큰 계산량이 요구된다는 점이다. Candidate response 의 길이인 $\vert Y \vert$ 를 얻기 위해서는 먼저 candidate response 의 목록을 뽑아야하는데, beam search 로 충분히 다양한 후보 응답을 얻기 위해서는 큰 beam size 가 요구된다. (beam size 200 in Li et al. (2015))

3. Weak conditional signal

응답이 다양하지 못한 이유는 $p(y_t \vert \hat{y}_{<t}, X)$ 에서 $X$ 의 시그널이 약하기 때문으로도 볼 수 있다. Input 시그널에 좀 더 주목할 수 있는 방법으로는 attention layer 가 널리 사용된다. Tao et al. (2018) 에서는 attention layer 를 response generation 에 적용했는데, attention 기법 자체가 input 의 일부에만 주목하는 방법이기 때문에 low-diversity 문제를 해결하는데에는 부족했다. 이를 해결하기 위해 저자들은 multiple attention head 를 사용하는 방법을 제시하였고 그 결과 응답의 다양성을 개선시킬 수 있었다고 한다.

4. Model over-confidence

Conversational modeling 은 input sequence $X$ 를 output sequence $Y$ 로 매핑하는 것으로 볼 수 있다. 결국 $P(Y \vert X)$ 를 학습하는 것이다. 이때 $P(Y \vert X)$ 는 다음과 같이 개별 토큰에서의 확률의 곱으로 정의되기 때문에 token-level distribution 과 밀접한 연관이 있다.

같은 맥락에서 만약 $P(y_t \vert y_{y_{<t}, X})$ 가 문제라면, timestep $t$ 가 증가할수록 $X$ 가 행사할 수 있는 영향력은 낮아지고 token level distribution 의 문제점은 점점 커질 것이다 (a “snowball effect”). 그리고 이러한 가설을 확인하기 위해 저자들은 1. Seq2Seq without attention, 2. Seq2Seq with attention 두개의 모델을 학습시키고 generic response 의 token-level distribution 을 시각화해보았다.

token-distribution

위 두개의 그래프를 통해 $t$ 가 증가할수록 모델의 confidence 가 증가하는 경향이 있음을 확인할 수 있다. 이러한 snowball effect 로 인해 seq2seq 모델의 output 은 특히 뒷쪽에서 반복이 나타나거나 input 과 관련성이 떨어지는 등 quality 가 낮다. 이러한 over-confidence 경향을 낮추기 위해서 output distribution 의 entropy 를 높이는 방법을 생각해볼 수 있다. Pereyra et al. (2017) 에서는 negative entropy 를 negative log likelihood 로만 이루어진 학습 목적식에 더하는 confidence penalty method 를 제안하였고, 이 방법이 label smoothing regularization (Szegedy et al., 2016) 과도 연관이 있음을 보였다.

하지만 over-confidence 를 방지하는 것이 low-diversity problem 을 해결하는데에 얼마나 효과적인지는 아직 명확하게 밝혀지지 않았다.

Notes

Recent Posts

Variational Autoregressive Decoder for Neural Response Generation
Content Preserving Text Generation with Attribute Controls
Matching Networks for One Shot Learning
Pointer Networks
Get To The Point: Summarization with Pointer-Generator Networks