• Attention is all you need

    WHY? 기존의 sequence transduction모델들은 복잡한 RNN이나 CNN을 기반으로 하였고 attention mechanism을 활용하였다. WHAT? 저자는 RNN이나 CNN구조를 제외하고 attention만을 사용하여 좋은 성능을 내는 모델을 제안하였다. 모델 구조는 다음과 같다. 여기서 Multi-head self-attention은 한 문장 내에서 단어들과 다른 단어들 간의 Scaled Dot-Product Attention으로 구성된다. Scaled Dot-Product Attention은 기존의 attention과는 달리 한 input...


  • Prioritized Experience Replay

    WHY? 기존의 DQN은 학습 데이터들 간의 연관관계를 없애기 위하여 데이터들을 Experience Replay에 저장해 두고 랜덤으로 샘플하여 학습하였다. 하지만 모든 경험이 같은 가치를 가지는 것은 아니다. reward가 sparse한 환경의 경우 특정 경험이 더욱 중요한 가치를 가질 수 있다. WHAT? 이를 위해 experience replay내에 있는 경험의 중요성을 판단하여 효율적으로 학습하고자 하였다. 경험의...


  • Dueling Network Architectures for Deep Reinforcement Learning

    WHY? 기존의 DQN은 특정 지점에서의 action-value function을 근사하기 위하여 모든 state와 action의 값을 모두 평가해야 한다는 단점이 있다. 하지만 대부분의 경우, state의 가치가 중요하고 action으로 인한 가치의 변화가 극명한 경우는 많지 않다. 또한 어차피 행동을 고르기 위해서 action-value function을 근사하기 때문에 모든 state와 action에 대하여 정확한 값을 아는 것이 중요한...


  • Deep Reinforcement Learning with Double Q-learning

    WHY? 기존의 DQN은 특정 지점에서의 action-value function을 그 state에서 action을 취했을 때 즉각적으로 얻는 reward와 그 다음 상태의 가치를 discount한 값을 더한 것으로 근사한다. 조금 더 근사를 효율적으로 하기 위하여 target 네트워크를 사용하는데 이때 다음 state의 가치를 최선의 action을 한 결과로 판단하기 때문에 낙관하는(overoptimistic) 결과가 나타난다. 이러한 낙관적인 예측은 점진적으로...


  • Wasserstein Auto-Encoders

    WHY? 기존의 VAE에서는 variational lower bound를 통하여 marginal log-likelihood 를 최대화 하고 Q(z)와 P(z|x)간의 KL Divergence를 최소화하도록 하는 regularization term을 통하여 encoder와 decoder를 학습시켰다. WHAT? Generator를 학습할 때 variational lower bound가 아닌 실제 분포와의 Wasserstein distance를 사용하여 학습하였다. Wasserstein distance란 다음과 같이 정의될 수 있다. where is the marginal distribution...