Style Transfer from Non-Parallel Text by Cross-Alignment
3 minute read

한줄 요약 Non-parallel 데이터만으로 text style transfer 를 할 수 있는 cross-alignment 구조를 제안한다.

Motivation

Text Style Transfer 은 machine translation, decipherment, sentiment modification 등 다양한 과제를 포함한다. 이와 같은 text generation task 에서 non-parallel, mono-lingual data 는 흔하지만 parallel data 는 구하기 어렵다.

Differences

본 논문에서는 non-parallel text 만으로도 text style transfer 를 할 수 있는 cross-alignment 모델을 제안한다. Baseline 으로 제시된 control-gen (Hu et al., 2017) 은 문장이 style/sentiment 에 잘 부합하는지에 초점을 두었으나 본 논문에서는 이외에 content preservation 도 고려하도록 모델을 구성하였다.

Method

본 논문에서는 주요 개념들을 다음과 같이 정의한다.

추가적으로 style transfer 를 진행할 두개의 데이터셋이 $y_1$, $y_2$ 로 style (관측되지 않는 latent variable) 은 서로 다르지만 content, 내용은 동일한 분포를 공유한다고 가정한다.

결국 style transfer task 는 $p(x_1 \vert x_2; y_1, y_2)$ 와 $p(x_2 \vert x_1; y_1, y_2)$ 를 학습하는 과정으로 정의된다.

각 데이터셋에 대한 marginal distribution $p(x_1 \vert y_1), p(x_2 \vert y_2)$ 만 관찰 가능한 상황에서 joint distribution $p(x_1, x_2 \vert y_1, y_2)$ 를 복원할 수 있어야한다. 논문에서는 이 문제를 현실적으로 풀 수 있게 도와주는 몇가지 가정을 하고 있다. 먼저 서로 다른 style 로 정의된 데이터셋 $X$ 들이 서로 충분히 구분되어야한다. 그리고 content 의 분포인 $p(z)$ 가 복잡한 형태를 띠고 있을수록 두 style 의 차이가 더 극명해져 transfer 를 찾기가 더 쉬워진다. 정리하면 문장에서 스타일은 단순한 $y$ 에 담기고 나머지 의미적 요소는 복잡한 분포를 따르는 $z$ 를 통해서 표현되는 것이 바람직하다.

논문에서는 auto-encoder 를 기반으로 하는 두 구조, aligned auto-encoder 와 cross-aligned auto-encoder를 제안한다.

1. Aligned auto-encoder

Overall training objective

2. Cross-aligned auto-encoder

model

Aligned auto-encoder 와 달리 discriminator 가 두개 사용되었다.

Discrete sample 에 대한 gradient propagation 을 가능하게 하기 위해 두가지 기법이 적용되었다.

  1. generator RNN 의 input 으로 이전 스텝에서 예측된 단일 단어를 사용하는게 아니라 전체 단어의 softmax 분포를 사용.
  2. Professor-Forcing
    • Discriminator 의 input 으로 output word 를 쓰지 않고 hidden state 의 sequence 를 사용.

Results

실험은 sentiment modification, word substitution decipherment, word order recovery 의 세가지 과제에 대해 진행되었다.

Sentiment modification 의 경우, 먼저 성능이 좋은 pretrained classifier 가 스타일이 변경된 문장의 sentiment 를 판별하게 했다.

result-1

Hu et al. 을 통해 생성된 문장들이 본 논문의 모델보다 sentiment 를 잘 반영한다고 할 수 있다.

Human evaluation 도 이러한 결과를 뒷받침한다.

result-2

Hu et al. 이 sentiment 와 fluency 의 측면에서는 더 우수한 성능을 보이지만 overall transfer 의 경우 cross-align 이 더 좋다. 실제 모델에서 생성된 sample 을 보면 그 이유를 확인할 수 있다.

result-3

보면 Hu et al. 은 sentiment 는 잘 반영하지만 그것을 제외한 원 문장의 의미가 보존되지 않은 경우가 많다. 반면 cross-align 은 원문장의 소재를 어느정도 보존하면서 sentiment 를 변경한다.

Notes

질문

다음에 읽어볼 논문

Recent Posts

Lazy learning vs Eager learning
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Perplexity of Language Models
Matrix Calculus
Inverted Indexing