WHY?

기존 DQN의 큰 문제 중 하나는 강화학습 도중 피드백이 sparse하거나 delayed된 경우 충분한 탐색을 하지 못한다는 것이다.

Note

Semi-MDP란, 기존 MDP의 상태가 바로 그 직전까지의 상태에 의존하고 행동 직후에 다음 상태가 오는 것과 달리 한 행동이 여러 시간을 소모할 수 있는 환경이다. 그렇기 때문에 한 행동을 선택 후 일정한 시간 후의 상태가 나타나게 된다. 이렇게 일정한 시간이 걸리는 행동집합을 Option이라고 한다.

WHAT?

이 문제를 해결하기 위하여 한 에이전트에 두가지 층위의 컨트롤러를 구성하였다. 상위 컨트롤러는 현재 상태를 바탕으로 여러 목적을 평가하고 하나를 선택한다. 하위 컨트롤러는 현재 상태와 주어진 목적을 바탕으로 행동을 선택한다. 두 컨트롤러 모두 리워드를 최대화 하는 방향으로 Q함수를 업데이트한다.

So

로컬 옵티멈이 있는 경우와 같이 단기적 목적에 빠질 수 있는 게임들에서는 중간 목적을 설정하게 하는 것이 장기적 목적을 달성하는데 더욱 도움이 되었다. 몬테주마의 복수 게임과 같이 보상을 최대화 하기 위하여 열쇠를 얻는 것과 같은 중간단계를 거쳐야 하는 경우 이를 성공적으로 수행할 수 있다.