본문 바로가기
Visual Intelligence/Image Segmentation

[Image Segmentation] 주목 메커니즘 (Attention Module)

by goatlab 2022. 12. 15.
728x90
반응형
SMALL

주목 메커니즘 (Attention Module)

 

주목 메커니즘 (Attention Mechanism)은 중요도가 높은 특정 벡터에 더욱 집중하도록 도와주는 기법으로 RNN의 seq2seq에 처음 도입되었다. CNN에서 주목 기법은 주로 Visual Question Answering 또는 Image Captioning처럼 multi-modal간의 관계를 이용한 feature selection에 많이 사용되었다. 가장 대표적인 논문인 “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention” 에서는 아래의 그림과 같이 어떤 부분을 보고 문장을 생성했는지 효과적으로 시각화했는지 보여주었다.

 

 

주목 메커니즘은 장기 의존성 문제를 효과적으로 해결하며 이후 많은 연구들에 적용되어왔다. 어텐션의 기본 아이디어는 디코더에서 출력 단어를 예측하는 매 시점 (time step)마다, 인코더에서의 전체 입력 문장을 다시 한번 참고한다는 점이다. 단, 전체 입력 문장을 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야할 단어와 연관이 있는 입력 단어 부분을 좀 더 집중(attention)해서 본다는 것이다.

 

더 일반적인 과업인 이미지 분류와 객체 검출 등에서도 입력 영상에 따라 봐야 하는 부분이 다르다. 일반적인 이미지 분류 모델에서 입력 영상에 따라 서로 다른 computational path를 갖게 한다면 성능 향상을 기대해볼 수 있다.

 

네트워크 아키텍처 디자인의 관점으로 보면, 이미 depth/width/cardinality (grouped conv)등 많은 측면이 연구가 되어왔다. 그 동안 Attention은 각 task에 특화되어 사용되었고, 일반적인 아키텍처 연 구가 많이 이루어지지 않았다. 최근에 들어서야 Residual Attention Networks (CVPR17), Squeezeand-Excitation (CVPR18), Non-local Neural Network (CVPR18) 등 일반적인 네트워크 구성요소 로 attention이 주목을 받고 있다.

 

Attention은 기존의 네트워크 디자인 요소들과 다소 orthogonal하며, 따라서 complementary하게 네트워크 성능 향상이 가능하다고 가정을 하였다. 추후 실험 결과를 보면, 논문에서 제안한 attention module은 아주 적은 overhead로도 매우 유의미한 성능 향상을 이끌어낸다. 그 효과는 여러 벤치마크 (ImageNet classification, COCO detection, VOC detection) 및 여러 아키텍처 (ResNet, WideResNet, ResNext, MobileNet, etc)에서 입증되었다.

 

 

CNN 네트워크로 이미지의 특징을 잘 요약하는 feature map 생성한다.

 

 

다음 그림은 Decoder에서 단어를 출력할 때 단어와 가장 유사한 피쳐 맵과 attention 점수를 계산하여 보여준다.

 

728x90
반응형
LIST