Learning Loss for Active Learning
3 minute read

Motivation

데이터 레이블링을 좀 더 효과적으로 진행하기 위해 제안된 active learning 은 불확실하다고 판단된 데이터를 선별해서 사람에게 레이블링을 요구하는 방법이다. 기존의 active learning 방법론은 특정 task 에 한정된다거나 계산량 때문에 deep network 에는 적용하기 어렵다는 단점이 있다.

Major approaches in active learning

  1. Uncertainty-based approach
    • Class posterior probability 를 활용
    • Task agnostic uncertainty approach : query-by-committee, Monte Carlo Dropout 이용
  2. Diversity-based approach
    • 전체 unlabeled 데이터의 분포를 가장 잘 대표할 수 있는 subset 을 뽑는 방법 (= Distribution approach)
  3. Expected model change
    • 계산량이 큼

Differences

본 논문에서 제안하는 loss prediction 모듈은 어떤 task 나 모델에도 간단하게 적용할 수 있으면서 (task-agnostic) 효율적이라는 강점을 지닌다.

Method

model

전체 모델의 학습 절차는 다음과 같다.

  1. $\mathcal{U}_N$ 으로부터 $K$ 개 data 를 uniform 하게 샘플링하고, 이에 대해 labeling을 요구한다.

  2. Labeled data 로 $\Theta_{\text{target}}, \Theta_{\text{loss}}$ 를 학습한다.
  3. 학습된 로 $\{(x, \hat{l}) \vert x \in \mathcal{U}^0_{N-K}\}$ 를 구한다.
  4. $\hat{l}$ 값이 큰 top-K 데이터에 대해 labeling 을 요구한다.

모델의 성능이 정해진 기준을 충족하거나 labeling 비용이 소진될때까지 2~4의 과정을 반복한다.

1. Loss Prediction Module

Loss prediction 모듈은 타겟 모듈에서 계산되는 loss 를 예측한다. Loss prediction 모듈은 타겟 모듈보다 훨씬 사이즈가 작으면서 타겟 모듈과 함께 학습된다. 따라서 계산량이 크게 늘어나지 않고 별도의 학습 과정 또한 요구되지 않는다.

2. Learning Loss

Target 모듈과 loss prediction 모듈을 종합한 loss function 은 다음과 같다.

여기서 $L_{\mathrm{loss}}$ 을 어떻게 정의할 것인가의 문제가 발생한다. 가장 단순하게 MSE (mean squared loss) 를 사용할 수도 있으나 실험결과 기존방법론의 성능을 뛰어넘지 못했다. 저자들은 그 이유로 true loss $l$ 의 스케일이 학습이 진행됨에 따라 계속 바뀌는 것을 꼽았는데, MSE 를 줄이면 loss prediction module 이 loss $l$의 스케일 변화를 따라가기만 하고 정확히 $l$의 값을 맞추도록 학습되지는 못하기 때문이다.

따라서 $l$ 의 스케일 변화에 영향을 받지 않는 loss prediction loss function 을 구축해야했고, 본 논문에서는 minibatch 내에서 짝을 지어 loss 값을 비교하는 방법을 사용했다. $L_{\mathrm{loss}}$ 는 아래의 식으로 정의된다.

Results

본 논문에서는 세가지 visual recognition task (분류 문제인 image classification, 회귀 문제인 human pose estimation, 분류+회귀 문제인 object detection) 에 대해 실험을 진행하였고 셋 모두에서 기존의 방법론을 뛰어넘는 퍼포먼스를 보였다.

Image Classification

model

Object Detection

model

Human Pose Estimation

model

Notes

Recent Posts

Deep Contextualized Word Representations
Pretraining-Based Natural Language Generation for Text Summarization
Style Transfer from Non-Parallel Text by Cross-Alignment
End-To-End Memory Networks
A Structured Self-Attentive Sentence Embedding