WHY?

consciousness를 특정 순간의 awareness라고 한다면 여러 저차원 concept들의 조합이라고 생각할 수 있다. 이러한 저차원 개념(thought vector)들은 현실에 대한 사실이거나 결정을 내리는데 유용한 명제(statement)로 구성될 수 있다. 이러한 의식을 통하여 미래에 대한 예측을 하고 의사결정을 내릴 수 있다. 기존에는 감각으로 부터 오는 데이터(sensory data)로 부터 직접 의사결정을 한다고 간주되어 왔지만 consciousness prior는 agent가 고층위 abstract space에서 예측 및 의사결정을 내릴 수 있게 해준다. 이러한 conciousness prior는 복잡한 의식으로 부터 단순화된 언어를 통하여 표현하는 자연어 발화 과정에도 부합한다. consciousnes는 agent가 현재에 유용한 표현을 만들기 위하여 abstract concept들 중에서 몇몇의 concept에 주목하여 구성된다는 점에서 착안하여 attentive awareness 라고도 볼 수 있다.

WHAT?


특정 시점에 관찰된 정보를 s라고 할때 h는 s로부터 처리한 표현이며 representation state라고 부른다. 이는 위와 같은 관계를 가지며 이는 RNN계열과 같이 나타난다. 여기서 F를 representation RNN, 혹은 encoder라고 부른다. 우리의 목적은 추상적 설명 요인들을 정보 단위들로 잘 disentangle하는 h를 학습하여 h에 대한 간단한 연산을 통하여 필요한 정보들을 선택할 수 있도록 하는 것이다. 여기서 h는 특정 순간까지 뇌에서 일어난 모든 정보를 포함하기 때문에 매우 고차원이며 sparse하다.

c는 h에 attentive mechanism을 통하여 추출한 매우 저차원의 벡터로서 conscious state라고 부르며 순간에 가지고 있는 생각의 내용이라고 볼 수 있다. C는 가진 모든 정보로 부터 필요한 소수의 정보를 추출하며 consciousness RNN라고 부른다. 이는 위와 비슷한 구조를 가지지만 어떤 정보에 집중을 할지 탐험을 해야하기 때문에 random noise z를 가진다.

우리가 특정 순간에 올바른 정보들로 좋은 예측, 혹은 의사결정을 했는지 확인하기 위하여 V라는 verifier network를 가진다. h로 부터 목적함수를 mapping하기 위해서는 attention mechanism과 prediction or action이라는 두가지 과정을 거친다. 미래의 요소를 A로 놓고 attention을 통하여 추출한 정보를 B로 놓았을 때 를 최대화 하는 것이다. 하지만 예측하기 쉬운 정보만 고를 수도 있기 때문에 이 목적함수 만으로는 충분하지 않다. 여러 정보 중 어떤 정보에 집중할 것인가는 열린 질문이다.
Attention을 위하여 key와 value를 분리하는 것은 요소들을 명명(Naming)하는 것이라고도 볼 수 있기 때문에 consciousness attention와 verifier network에 유용하다.

기존의 자연어 모델은 바로 전 단어에만 의존하여 다음 단어를 선택하는 구조를 가지고 있었지만 consciousness prior를 사용하여 현실성 있는 모델을 만들 수 있다. 언어가 정보량이 더 많은 생각을 압축하여 표현한다는 점도 반영된다.

Critic

정말 인사이트가 넘치는 논문이었다. 기초적이긴 하지만 인간의 인지과정과 의식을 기존의 기계학습 개념들을 활용하여 표현하였다는 점이 놀라웠다. 인간에게도 설명하기 힘든 의식을 정식화하려 했다는 점에서 어찌보면 생물학 논문 같기도 하다. 속설에 벤지오가 술 한잔 걸치고 썼다는 말이 있을 정도로 추상적이지만 이 인사이트가 증명된다면 이 논문은 전설이 될 수 도 있을 것 같다.

Bengio, Yoshua. “The consciousness prior.” arXiv preprint arXiv:1709.08568 (2017).\