• Early Visual Concept Learning with Unsupervised Deep Learning

    WHY? 이미지의 피쳐를 추출할 때, 한 피쳐 값이 이미지에 대하여 우리가 인지할 수 있는 특성을 나타낸다면 이 값을 조정하여 이미지를 의도적으로 생성할 수 있을 것이다. 이렇게 이미지의 feature를 우리가 의도한 방식으로 추출하는 것을 disentangling이라고 한다. 이러한 disentangled factors는 이미지의 특성 및 추상화된 개념을 나타내게 된다. WHAT? 아기가 처음 처하는 상황과...


  • Human-level control through deep reinforcement learning

    WHY? 기존의 강화학습 agent들은 각 게임마다 다른 feature를 추출하여 state로 사용하였기 때문에 각 게임마다 다른 모델로 학습해야 한다는 한계가 있었다. WHAT? Deep convolution network 를 사용하여 게임 화면의 픽셀들로 부터 피쳐들을 학습하여 state로 사용하는 모델을 제시하였다. 샘플간의 공분산성을 해결하기 위하여 replay memory method를 사용하였고 moving target현상을 해결하기 위하여 메인 모델과...


  • Neural Machine Translation by Jointly Learning to Align and Translate

    WHY? 기존의 encoder-decoder model들은 인코더의 맨 마지막 벡터의 모든 input정보가 담겨야 해서 긴 문장을 번역하는데 한계가 있었다. WHAT? 맨 마지막 벡터 대신 input벡터들의 hidden layer와 decoder의 이전 hidden layer와의 곱을 점수로 매겨 그 점수로 input벡터들의 hidden layer들을 가중합한 context 벡터를 활용하여 decoder의 다음 hidden layer를 구한다. So 번역을 할 때...


  • Dynamic Topic Model

    WHY? LDA를 통하여 토픽 모델링을 할 때 시간적으로 토픽과 그에 대한 단어 분포가 변화하는 정보를 반영하지 못한다. WHAT? 기존의 LDA의 모델에서 파라미터(토픽과 토픽의 비율 - )를 평균으로 정규분포를 통하여 표본 추출했다고 가정함으로서 시계열적인 latent variable을 가지고 있다고 가정하고 근사 추정을 한다. So LDA보다 시계열적인 정보를 잘 반영한다.


  • GloVe: Global Vectors for Word Representation

    WHY? 기존의 Skipgram과 CBOW는 일정 window 내의 정보만 반영할 뿐 global한 frequency정보는 반영하지 못한다. WHAT? 두 임베딩의 곱을 동시발생 빈도만큼 가중하여 두 단어의 동시발생 빈도에 가까워 지도록 학습하는 GloVe를 제안하였다. So Skipgram과 CBOW보다 여러면에서 좋은 성과를 내었다.