WHY?

기존의 MC(Machine Comprehension)의 데이터셋들(CNN/DailyMail/SQuAD)은 제시문과 그에 직접적인 질문들이 주어진다. 하지만 인간이 정보 검색을 할때의 환경은 훨씬 노이즈가 심하다.

WHAT?

미국의 퀴즈 프로그램 Jeopardy!에 등장하였던 140k개의 질문과 정답(평균 1.47단어)를 정리하였다. 그에 더하여 각 질문에 대하여 질문 자체를 구글에 검색했을 때의 결과(평균 49.6건, 한 건당 평균 37.3단어)까지 추가하였다. 이와 유사한 데이터셋으로는 MS의 Bing을 사용한 MS MARCO(Nguyen et al., 2016)이 있다.

So?

똑같은 환경으로 사람과 TF-IDF Max, Attention Sum Reader를 통하여 실험을 진행하였다. 사람의 경우는 단답(Unigram)형식과 다답(n-gram)을 나누어 진행하였는데 각각 66.97%, 42.86%가 나왔다. TF-IDF Max는 단답에 대하여 12.7%, ASR은 각각 41.3%, 22.8%가 나왔다.