• 도쿄 구울

    평점: 4 사람을 먹는 괴물인 구울이 존재한다는 뻔한 설정이지만 그 설정속에서 현실적이고 철학적인 주제들로 고민하는 캐릭터들을 매력적으로 그려내고 있으며 균형잡힌 서술을 통해 인간과 구울에 모두 감정이입하게 만들어 독자에게 모순적인 감정이 들게 만든다. 상생의 여지가 극단적으로 없는 환경에서도 폭력이 아닌 대화와 타협이 가능한가 라는 물음을 제기한다. 타협의 가치를 추구하는 주인공이 지속적으로...


  • Variational Inference with Normalizing Flows

    WHY? Variational Inference를 할때 다루기 쉬운 형태의 posterior함수 q를 가정하고 이를 실제 분포에 근사한다. 하지만 posterior를 쉬운 형태로 가정하기 때문에 실제 분포에 잘 근사되지 않는 것과 같은 한계가 존재한다. WHAT? Normalizing flow란 확률분포를 일련의 가역변환을 통하여 변화시키는 과정이다. 중요한 것은 변화한 뒤의 분포의 likelihood를 파악하는 것이다. 변화 이후의 likelihood를 파악하기...


  • Continuous Control with Deep Reinforcement Learning

    WHY? DQN은 각 상황과 행동에 대한 가치를 평가하는 함수인 Q function을 근사하여 이에 따라 때문에 action space가 discrete할 수 밖에 없다. WHAT? Policy gradient는 neural net을 통하여 policy 자체를 평가하는 방법이다. policy를 평가하는 기준은 1) 그 policy대로 행동했을 때 예상되는 미래의 모든 가치들을 감가상각한 첫 상황의 가치(episodic) 혹은 2) 각...


  • PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications

    WHY? PixelRNN에서 제안되었던 PixelCNN은 함께 제안되었던 다른 구조와는 달리 유연하고 병렬화가 가능하여 계산적으로 효율적이며 성능 또한 뛰어났다. WHAT? 이 논문에서는 PixelCNN의 성능을 향상시키기 위한 몇 가지 방법을 제안하였다. 1) 가장 큰 변화는 256-softmax를 사용하여 한가지 값을 예측하는 대신 여러 logistic 분포를 mixture하여 연속 분포를 나타내고 이를 반올림하여 x값을 추정하였다. 2)...


  • Model-Free Episodic Control

    WHY? 인간은 어떤 환경에서 한번 보상을 보게 되면 그에 대해 빠르게 학습한다. DQN은 환경을 학습하기 위하여 그 상태와 행동의 가치를 근사하지만 환경 전체를 알기 위해서는 아주 오래걸린다. WHAT? Model-free Episodic Control에서는 한번 보상을 얻으면 그 경험을 적극적으로 활용한다. 이는 환경이 deterministic하고 exploration보다 exploitation이 더 중요한 미로와 같은 환경에서 적합하다. 한...