End-To-End Memory Networks
2 minute read

Motivation

외부 기억 장치 (external memory) 를 이용해 task 를 푸는 모델이 많이 제안되고 있다. (e.g. RNN 의 state, LSTM 의 memory cell, Memory Network)

Differences

본 논문에서는 external memory 를 가지는 recurrent attention model 을 제안한다. 제안된 모델은 기존에 있었던 memory network 와 달리 end-to-end 로 학습될 수 있고 RNNsearch 와 달리 output symbol 하나마다 multiple computational step 을 진행하며 성능 또한 더 뛰어나다.

Comparison with

  1. Memory Networks (Weston et al.)
    • Softmax 를 이용한 continuous form 이기 때문에 end-to-end 로 학습이 가능하다.
    • 제안된 모델은 supervision 이 주어지지 않는 task 까지 포함해 더 넓은 범위의 task 에 적용될 수 있다.
  2. RNNsearch
    • 제안된 모델은 한 output symbol 마다 여러번의 computational step 이 있다.
  3. RNN, LSTM
    • RNN 은 주로 매 timestep 마다 output 값이 있지만 memory network 는 정해진 횟수의 timestep 마다 output 을 내뱉는다.
    • 제안된 memory network 는 global memory 를 사용하면서 read, write function 을 공유하는 형태이다.
  4. Neural Turing Machine (Graves et al.)
    • Memory 를 continuous 하게 표현한다는 점에서 같다.
    • MN 은 content based memory 만 구성하고, NTM 은 content based 와 address based access 를 모두 구현한다는 점이 다르다.

Method

model

Results

제안된 MemN2N 은 Synthetic Question and Answering 과 Language Modeling 의 두가지 task 에서 기존 모델들 대비 좋은 성능을 보였다. 단 LM task 에서는 Strongly supervised Memory Network 의 성능을 뛰어넘지는 못했다.

1. Synthetic Question and Answering

2. Language Modeling

Notes

  1. QA task 에서 softmax 를 training 후반부에 넣어주는 trick (LS training) 을 사용하면서 이 방법이 local minima 를 피하는데에 도움이 되는 것 같다고 서술하였다. 이러한 트릭의 근원이 무엇인지 궁금하다.
  2. LM 에서 sequence 를 예측할 때 실제 예측은 단어 하나씩 진행해야하는데 한번 예측할 때도 multiple computational step 을 소요한다고 한다. 이러한 점만 보면 계산량이 RNN 에 비해 크게 개선되지 않는 것 같은데 8p 에서 왜 complexity 가 기존 recurrent model 보다 낫다고 하는지 이해가 잘되지 않는다.
  3. LM 에서는 memory 가 이전 timestep 까지 주어지는 단어들이고, question 은 없어서 값이 계속 0.1 로 고정되어 모델에 들어간다. 이렇게 임의적으로 정한 값이 매 timestep 마다 input 으로 들어가는건 모델에 어떤 영향을 미치나?
  4. QA 에서 정답이 여러개일때는 어떻게 같은 구조를 활용해서 예측을 하는것인지.

Recent Posts

Deep Contextualized Word Representations
Pretraining-Based Natural Language Generation for Text Summarization
Style Transfer from Non-Parallel Text by Cross-Alignment
A Structured Self-Attentive Sentence Embedding
Learning Loss for Active Learning