Curriculum Learning
in Studies on Deep Learning, Deep Learning
WHY?
사람은 특정 일을 학습할 때 쉬운 일 부터 배운 후에 점차 어려운 일을 배운다.
WHAT?
머신러닝에서도 일의 난이도를 결정하여 쉬운 일 부터 학습하면 같은 데이터로 부터 학습하더라도 수렴 속도를 높이고 더 좋은 local minima에 수렴할 수 있다.
0 \geq \lambda \geq 1\\ Q_{\lambda} \propto W_{\lambda}(z)P(z) \forall z\\ W_1(z) = 1, Q_1(z) = P(z)\\ H(Q_{\lambda}) < Q_{\lambda + \epsilon} \forall \epsilon > 0\\ W_{\lambda + \epsilon} \geq W_{\lambda}(z) \forall z, \forall \epsilon > 0
Q_{\lambda}
를 시점 \lambda
의 training distribution이라고 한다면 Q_{\lambda}
의 엔트로피가 지속적으로 증가하고 W_{\lambda}
가 단조증가 할 때 Q_{\lambda}
를 curriculum이라고 부른다. 쉬운 문제에서 어려운 문제로 확장하는 속도는 결정 가능하며 쉬운 문제를 정의하는 방법 또한 문제마다 다를 수 있다.
So?
Shape recognition은 다양한 모양의 세모, 네모, 원형을 분류하는 문제인데 쉬운 문제를 정삼각형, 정사각형, 원으로 정의하고 curriculum을 통하여 좋은 성능을 보였다. 또한 language modeling에서는 빈번한 단어를 맞추는 문제를 쉬운 문제로 정의함으로써 좋은 성능을 얻었다.
Critic
GPU가 보급되지 않던 때의 논문이라 다양한 task에 대해 포괄적인 실험이 이루어지지 못한 것이 아쉽다.