Surrogate Loss Functions (1)
1 minute read

ERM Principle

ERM principle에 대한 자세한 설명은 이전글을 참조.

통계적 학습의 목표는 함수 공간 $\mathcal{F}$에서 loss의 기댓값을 최소화하는 $f^O$를 찾는 것이다.

그리고 ERM principle은 다음과 같은 식을 통해 $f^O$를 $\hat{f}$로 근사하는 것이었다.

여기에서 나아가 ERM principle을 분류 문제에 적용해보자. 카테고리가 두개인 이진 분류 문제$(y \in \{-1, 1\})$를 가정할때, 손실함수(loss function)로 가장 이상적인 것은 $0$-$1$ loss이다.

$0$-$1$ loss는 예측이 맞으면 페널티를 $0$, 틀리면 $1$로 주는 아주 간단한 형태의 loss이다.

그리고 $0$-$1$ loss를 손실함수로 설정하면 Risk를 최소화하는 분류기를 이론적으로는 구할 수 있다. Risk는 아래의 식으로 계산한다고 했었다. 이 Risk를 최소화하는 이상적인 분류기($f^O$)를 Bayes predictor라고 하고, 그때의 risk 값은 Bayes risk라고 한다.

하지만 이전글에서도 말했듯이, bayes risk를 실제로 계산하는 것은 불가능(NP complete)하다.

첫번째 이유는 $P(X,Y)$를 알 수 없기 때문이다. (이는 risk를 Empirical risk로 근사하는 이유이기도 하다.) 두번째 이유는 손실함수 $L(f(x), y)$이 불연속(discontinuous)이기 때문이다. 불연속함수는 미분이 되지 않기 때문에 일반적으로 최적화하기가 어렵다. 아래의 그림은 이진분류문제에서 $\mathbf{x} \in \mathbb{R}^2$일때의 손실함수를 면으로 나타낸 것이다. (이미지 출처)

보다시피 손실함수가 대부분 넓고 평평한 공간으로 이루어져있고, 불연속한 지점 또한 많다. 따라서 최적화하는 것도 어려워진다.

그리고 이 문제를 해결하기 위해 도입된 것이 surrogate loss(대리손실함수)이다. 앞으로의 내용에서도 다양한 surrogate loss를 소개하고 비교할 것이다.

참고문헌 :link:
http://fa.bianp.net/blog/2014/surrogate-loss-functions-in-machine-learning/

Recent Posts

Matrix Calculus
Inverted Indexing
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Deep Contextualized Word Representations
Pretraining-Based Natural Language Generation for Text Summarization