• Wasserstein Auto-Encoders

    WHY? 기존의 VAE에서는 variational lower bound를 통하여 marginal log-likelihood 를 최대화 하고 Q(z)와 P(z|x)간의 KL Divergence를 최소화하도록 하는 regularization term을 통하여 encoder와 decoder를 학습시켰다. WHAT? Generator를 학습할 때 variational lower bound가 아닌 실제 분포와의 Wasserstein distance를 사용하여 학습하였다. Wasserstein distance란 다음과 같이 정의될 수 있다. where is the marginal distribution...


  • InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

    WHY? 기존의 GAN을 통하여 이미지를 생성할 때 이미지의 특성에 대한 조건을 부여할 수 없었다. WHAT? InfoGAN은 기존의 GAN에 간단한 regularizer term을 추가하여 의미가 담겨있는 latent variable을 unsupervised하게 disentangling하고 이를 통하여 우리가 원하는 이미지를 형성할 수 있게 한다. 기존 GAN의 generater가 노이즈 z로부터 이미지를 생성한다면(G(z)), InfoGAN에서는 노이즈 z와 latent variable c를...


  • Wasserstein GAN

    WHY? 기존의 대표적인 Generation Model로 VAE와 GAN이 있다. VAE는 목적 분포를 직접 구하는 대신 계산 가능한 다른 분포를 가정하고 이와 목적 분포와의 거리(KL Divergence)를 최소화 함으로써 간접적으로 목적 분포를 구하였다. 하지만 KL Divergence는 두 함수의 support가 같은 영역에서 정의가 되어있어야 한다는 한계가 있다. 또한 GAN은 목적 분포를 직접 구하지 않고도...


  • Bi-Directional Attention Flow for Machine Comprehension

    WHY? 기존 machine comprehension 모델들의 attention은 문맥의 조그마한 부분에 주목하여 문맥을 특정 길이의 벡터로 요약을 하고 어탠션을 단방향적으로, temporal하게 적용하였다. 이러한 기존의 attention 방법은 요약하는 과정에서 정보를 손실하기도 하고 순차적으로 이루어지는 attention간에 의존성이 나타나기 때문에 attention의 역할과 model의 역할이 섞이게 된다. WHAT? BiDAF모델은 6층으로 이루어진다. 1. Character Embedding Layer에서는 character-level...


  • SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine

    WHY? 기존의 MC(Machine Comprehension)의 데이터셋들(CNN/DailyMail/SQuAD)은 제시문과 그에 직접적인 질문들이 주어진다. 하지만 인간이 정보 검색을 할때의 환경은 훨씬 노이즈가 심하다. WHAT? 미국의 퀴즈 프로그램 Jeopardy!에 등장하였던 140k개의 질문과 정답(평균 1.47단어)를 정리하였다. 그에 더하여 각 질문에 대하여 질문 자체를 구글에 검색했을 때의 결과(평균 49.6건, 한 건당 평균 37.3단어)까지 추가하였다. 이와 유사한 데이터셋으로는...