• RUDDER: Return Decomposition for Delayed Rewards

    WHY? In many enviroments of RL, rewards tend to be delayed from the actions taken. This paper proved that delayed reward exponentially increase the time of conversion in TD, and exponentially increase the variance in MC estimates. WHAT? RUDDER(Return Decomposition for Dalayed Reward) redistributes the rewards to reduce the delay....


  • You and your research

    Reference: Hamming, “You and Your Research” (June 6, 1995), summerized by sebster100 Comment - This paper made me seriously think about how is it like to be a great researcher. However, I also think these principles also applies to people who want to solve important problem. Do I? I’d say...


  • The Fall (2006)

    평점: 4.5 모든 이야기에는 화자가 반영되어 있다. 동시에 이야기는 듣는 사람의 것이 된다. 이렇게 이야기는 서로를 이해하는 소통의 매개가 된다. 알렉산드리아가 이야기를 계속 조르는 것은 비단 다음 내용이 궁금해서 뿐만 아니라 소통을 멈추지 말라는 응원이기도 하다.


  • 아픔이 길이 되려면

    데이터의 힘: 아픔이 길이 되려면을 읽고\ ‘아픔이 길이 되려면’이라는 책은 내게 여러모로 인상깊은 책이었다. 질병을 사회적으로 바라보는 신선한 시각, 소수자들에게 공감하려는 저자의 진심, 이를 전달하는 아름다운 문체, 그리고 그 주장을 부담스럽지 않게 하는 겸손한 태도 모두가 이 책의 논지들을 설득력있게 만들어 주었다. 하지만 내게 무엇보다 인상적이었던 것은 자신이 원하는 사회를...


  • Fixing a Broken ELBO

    WHY? Most of deep directed latent variable models including VAE try to maximize the marginal likelihood by maximizing the Evidence Lower Bound(ELBO). However, marginal likelihood is not sufficient to represent the performance of the model. WHAT? Instead of marginal likelihood, this paper suggest to measure the information between the observed...