• Continuous Control with Deep Reinforcement Learning

    WHY? DQN은 각 상황과 행동에 대한 가치를 평가하는 함수인 Q function을 근사하여 이에 따라 때문에 action space가 discrete할 수 밖에 없다. WHAT? Policy gradient는 neural net을 통하여 policy 자체를 평가하는 방법이다. policy를 평가하는 기준은 1) 그 policy대로 행동했을 때 예상되는 미래의 모든 가치들을 감가상각한 첫 상황의 가치(episodic) 혹은 2) 각...


  • PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications

    WHY? PixelRNN에서 제안되었던 PixelCNN은 함께 제안되었던 다른 구조와는 달리 유연하고 병렬화가 가능하여 계산적으로 효율적이며 성능 또한 뛰어났다. WHAT? 이 논문에서는 PixelCNN의 성능을 향상시키기 위한 몇 가지 방법을 제안하였다. 1) 가장 큰 변화는 256-softmax를 사용하여 한가지 값을 예측하는 대신 여러 logistic 분포를 mixture하여 연속 분포를 나타내고 이를 반올림하여 x값을 추정하였다. 2)...


  • Model-Free Episodic Control

    WHY? 인간은 어떤 환경에서 한번 보상을 보게 되면 그에 대해 빠르게 학습한다. DQN은 환경을 학습하기 위하여 그 상태와 행동의 가치를 근사하지만 환경 전체를 알기 위해서는 아주 오래걸린다. WHAT? Model-free Episodic Control에서는 한번 보상을 얻으면 그 경험을 적극적으로 활용한다. 이는 환경이 deterministic하고 exploration보다 exploitation이 더 중요한 미로와 같은 환경에서 적합하다. 한...


  • 뻐꾸기 둥지 위로 날아간 새

    평점: 4.5 폭력보다 더 억압적인 존댓말. 하지만 부끄럽지 않다고 말할 때, 빌리는 처음으로 말을 더듬지 않았다.


  • Neural Discrete Representation Learning

    WHY? VAE에서 추출하는 latent variable들은 기본적으로 continuous하다. 하지만 언어와 같이 discrete환경에서는 discrete한 latent variable들이 필요하기도 하다. WHAT? discrete한 latent variable들을 학습하기 위하여 Vector Quantization 방법을 사용하여 VQ-VAE라고 명명하였다. 이를 위해 먼저 latent embedding space 를 정의한다. 여기서 k는 discrete한 latent variable들의 숫자, D는 variable들의 차원을 의미한다. encoder를 통하여 input의 latent...