Variational Autoregressive Decoder for Neural Response Generation
1 minute read

Motivation

Language generation task 에 CVAE 구조를 성공적으로 적용한 연구들이 많이 제시되고 있다. 하지만 기존의 CVAE 계열 모델들은 단순한 unimodal 분포를 따르는 하나의 잠재변수 $z$에 의해 전체 발화가 생성되기때문에 복잡한 의미구조를 반영하기에는 부족하다는 점이 지적되어왔다. 단순한 잠재변수을 무시한채로 발화가 생성되는 model collapse, 또는 latent variable vanishing 또한 빈번하게 발생해왔다.

Differences

본 논문에서는 latent variable $z$ 를 하나로 두지 않고 매 timestep 마다 다시 샘플링해서 $z_t$ 에 기반해 단어를 예측한다. Latent variable vanishing 문제를 해결하기 위해서는 Zhao et al. (2017) 에서 제안되었던 Bag-of-Word loss 를 변형한 Sequential Bag-of-Word loss 를 사용하고 있다. 이러한 auxiliary loss 를 이용하면 latent variable vanishing 문제를 해결하는데에 도움에 된다고 한다.

Method

본 논문에서는 Dialogue generation 문제를 Variational Autoregressive Decoder (VAD) 구조를 사용해서 접근하고 있다. VAD 모델은 기본적으로 VAE 와 같은 구조를 가지고 있으며 encoder, decoder 에 bidirectional GRU 가 사용되었다는 특징이 있다.

Objective function 은 다음과 같다.

Results

실험은 OpenSubtitles 와 Reddit 두개의 데이터셋에 대해 진행되었다. 제안된 VAD 모델은 세개의 baseline 모델 (Seq2Seq, CVAE, CVAE + BOW loss) 에 비해 세개의 척도(Embedding Similarity, RUBER, Diversity)에서 전부 더 나은 결과를 보였다. 특히 VAD 모델은 의미적 요소를 평가하는 지표에서 강점을 보였고, 생성된 응답의 길이 또한 기존의 방법론에 비해 길게 나타났다. Dialogue response generation 에서는 좋은 대답의 기준이 다양하기도 하지만 다양한 기준을 전부 아우르는 절대적인 평가 방법이 아직 없다. 현재 나와있는 척도들 또한 human judgement 와의 상관계수가 그리 높지 않다는 점이 지적되어왔는데, 이러한 점에서 VAD 모델의 Human judgement score 가 높았다는 점이 눈여겨볼만하다.

Recent Posts

Why are Sequence-to-Sequence Models So Dull?
Content Preserving Text Generation with Attribute Controls
Matching Networks for One Shot Learning
Pointer Networks
Get To The Point: Summarization with Pointer-Generator Networks