• Auto-Encoder Variational Bayes

    Note 오토인코더는 분포 를 축소하여 latent variable z로 요약한 뒤 이를 재구성한 것과 원래의 데이터의 차이를 최소한으로 하도록 인코더와 디코더를 학습한다. 이 결과 z를 통하여 x의 가장 중요한 특징들을 요약하길 바란다. WHY? Variational 방법이란, 특정 분포를 직접 구하기 어려울 경우 우리가 안다고 가정하는 단순한 분포와의 거리(KL Divergence)를 최소한으로 함으로써 그...


  • Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

    WHY? 기존 DQN의 큰 문제 중 하나는 강화학습 도중 피드백이 sparse하거나 delayed된 경우 충분한 탐색을 하지 못한다는 것이다. Note Semi-MDP란, 기존 MDP의 상태가 바로 그 직전까지의 상태에 의존하고 행동 직후에 다음 상태가 오는 것과 달리 한 행동이 여러 시간을 소모할 수 있는 환경이다. 그렇기 때문에 한 행동을 선택 후 일정한...


  • Early Visual Concept Learning with Unsupervised Deep Learning

    WHY? 이미지의 피쳐를 추출할 때, 한 피쳐 값이 이미지에 대하여 우리가 인지할 수 있는 특성을 나타낸다면 이 값을 조정하여 이미지를 의도적으로 생성할 수 있을 것이다. 이렇게 이미지의 feature를 우리가 의도한 방식으로 추출하는 것을 disentangling이라고 한다. 이러한 disentangled factors는 이미지의 특성 및 추상화된 개념을 나타내게 된다. WHAT? 아기가 처음 처하는 상황과...


  • Human-level control through deep reinforcement learning

    WHY? 기존의 강화학습 agent들은 각 게임마다 다른 feature를 추출하여 state로 사용하였기 때문에 각 게임마다 다른 모델로 학습해야 한다는 한계가 있었다. WHAT? Deep convolution network 를 사용하여 게임 화면의 픽셀들로 부터 피쳐들을 학습하여 state로 사용하는 모델을 제시하였다. 샘플간의 공분산성을 해결하기 위하여 replay memory method를 사용하였고 moving target현상을 해결하기 위하여 메인 모델과...


  • Neural Machine Translation by Jointly Learning to Align and Translate

    WHY? 기존의 encoder-decoder model들은 인코더의 맨 마지막 벡터의 모든 input정보가 담겨야 해서 긴 문장을 번역하는데 한계가 있었다. WHAT? 맨 마지막 벡터 대신 input벡터들의 hidden layer와 decoder의 이전 hidden layer와의 곱을 점수로 매겨 그 점수로 input벡터들의 hidden layer들을 가중합한 context 벡터를 활용하여 decoder의 다음 hidden layer를 구한다. So 번역을 할 때...