728x90
반응형
SMALL
many to many
many-to-one 모델에서 출력을 생성하려면 최종 입력이 모델에 입력되어야 한다. 이와 달리 many-to-many 모델은 각 입력을 읽을 때마다 출력을 생성한다. 즉, many-to-many 모델은 입력 시퀀스에서 각 토큰의 기능을 이해할 수 있다.
many-to-many는 개체명 인식 (Named Entity Recognition)이나 형태소 분석 (Morphological Analysis)과 같은 task에 사용된다.
이 모델에서 가능한 예는 품사 태깅, 줄여서 POS이다. POS는 유사한 문법적 특성을 가진 단어 (또는 어휘 항목)의 범주이다. 일반적인 POS 유형은 명사, 동사, 형용사, 부사, 대명사이다. 따라서 POS 태깅은 각 토큰의 POS에 자동으로 태깅된다. 물론 규칙 기반 모델로 수동으로 처리할 수도 있지만 이를 위해서는 many-to-many 모델이 적합하다.
many-to-many와 many-to-one의 차이는 many-to-one의 경우 각 time step에서 모두 output이 나오는 것이 아니라, 마지막 token이 입력되었을 때, output이 나온다. 그 반면, many-to-many는 각 time step마다 모두 output이 나와서 각각의 loss를 계산하여 미니배치들의 loss 평균을 낸다. 이를 sequence loss라 한다. 이 sequence loss를 backpropagate하여 gradient 계산을 통해 학습하는 구조다.
728x90
반응형
LIST
'AI-driven Methodology > ANN' 카테고리의 다른 글
[ANN] 다층 퍼셉트론 (Multi-Layer Perceptron) (2) (0) | 2022.10.11 |
---|---|
[ANN] 다층 퍼셉트론 (Multi-Layer Perceptron) (1) (0) | 2022.10.07 |
[ANN] RNN many to one (0) | 2022.01.05 |
[ANN] RNN basics (Vanilla) (0) | 2022.01.05 |
[ANN] CNN in the image area (0) | 2021.12.29 |