Attention Cues
: 영장류의 시각 시스템의 시신경은 뇌가 완전히 처리할 수 있는 것보다 훨씬 더 많은 양의 감각 입력을 받는다.( 초당 비트들의 순서로 정보를 수신한다.)
하지만 이 자극들이 모두 똑같이 만들어지는 것은 아니다. 의식의 집중은 영장류들이 복잡한 시각 환경에서 먹이, 포식자와 같은 관심있는 물체에 주의를 기울일 수 있게 한다. 이러한 정보를 극히 일부에만 주의를 기울이는 능력은 진화적 의미를 지니고, 인간이 성공 할 수 있게 하였다.(사회화를 위해 자원을 더 현명하게 할당할 수 있게 했다.)
Attention Cues in Biology
우리의 attention이 시각 세계에 어떻게 배치되는지를 설명하기 위해, 두 가지 구성 요소 프레임 워크가 등장
- non-volitional cue
: 환경 내 물체의 눈에 띄는 정도에 기초한다.
ex) 밑에 그림을 처럼 5가지 물체가 있고 그중 4가지는 흑백 , 커피는 빨간컵에 담겨 있다고 생각해보자.
그럼 이 커피는 본질적으로 두드러지고 시각적 환경에서 눈에 띄며, 무의 식적으로 관심을 끌게된다.
- volitional cue.
- ex) 커피로 카페인을 섭취하게 되면 책을 읽고 싶어진다. 그래서 우리는 고개를 돌려 눈에 초점을 다시 맞춰 밑에 그림처럼 책을 본다.
이 경우는 위에 예시와 달리 커피가 인지능력과 자발적인 통제 하에 책을 선택 하게 되었다.
변수 선택기준에 기반한 volitional cue를 사용하면 이러한 형태의 attention은 더욱 의도적이다.
Quries, Keys, and Values
: 위의 내용을 통합하여 attention mechanisms 설계
-
non-nonvolitional cue : 간단한 경우를 생각해보면 선택을 편향하기 위해 parameterized 된 fully connected layers 나 non- parameterized 된 max or average pooling 을 간단히 사용할수 있다.
-
그래서 attention mechanisms 에서 fully connected layer와 pooling layers를 구별하는 것은 nonvolitional cue 의 포함이다.
: volitional cues를 quries라고 부른다.
- 이런 queries가 주어지면 machanisms은 attention pooling을 통해 sensory input(ex) 중간특징 표현)보다 선택을 편향시킨다.
: sensory input 은 attention mechanisms에서 values라고 불린다.
- 일반적으로 모든 values & keys 는 쌍을 이루며 sensory input의 non-nonvolitional cue 라고 생각이 할 수 있다.
- 밑에 그림을 보면, 주어진 quries(volitional cue)가 values(sensory input)에 대한 편향 선택을 안내하는 keys(non-volitional cue)와 상호작용할수 있도록 attention pooling을 설게할수 있다.
- 위의 메커니즘 설계를 위한 대안은 많이 있다.
ex) 강화학습을 통한 미분불가능한 attention model 설계
- quries 와 key 사의 attention weight를 시각화 가능하다.
참조
- https://d2l.ai/index.html