본문 바로가기
Visual Intelligence/Image Classification

[Image Classification] AlexNet

by goatlab 2022. 9. 6.
728x90
반응형
SMALL

AlexNet

 

https://bskyvision.com/entry/ILSVRC-%EB%8C%80%ED%9A%8C-%EC%9D%B4%EB%AF%B8%EC%A7%80%EB%84%B7-%EC%9D%B4%EB%AF%B8%EC%A7%80-%EC%9D%B8%EC%8B%9D-%EB%8C%80%ED%9A%8C-%EC%97%AD%EB%8C%80-%EC%9A%B0%EC%8A%B9-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98%EB%93%A4

 

ILSVRC은 ImageNet Large Scale Visual Recognition Challenge의 약자로 이미지 인식 (image recognition) 경진대회이다. 2012년 CNN 기반 딥러닝 알고리즘 AlexNet이 우승을 차지한 이후에는 깊은 구조(deep architecture)를 가진 알고리즘들이 우승을 차지했다. 오늘날 사용하고 있는 딥러닝 구조들은 AlexNet에서 계승 되었다고 해도 과언이 아니다. 첫번째 딥러닝 모델로써, 처음 ReLU와 GPU를 사용했다. 또한, Overfitting을 줄이기 위해 Dropout, Data Augmentation 적용하였다.

 

https://medium.com/@smallfishbigsea/a-walk-through-of-alexnet-6cbd137a5637

 

ZFNet

 

ZFNet은 CNN의 구조를 결정하는 Hyperparameter를 어떻게 설정할 것인지는 매우 중요한 문제다. 하지만 어떤 값이 최적의 조합인지 판단하기 어렵다. 그래서 이러한 문제를 Zeiler는 Visualizing 기법을 통해 해결하려 했다. Visualizing에 대한 중요한 개념은 2011년에 발표했고, 2012년에 AlexNet의 결과를 Reference로 해서 Visualizing 기법이 효과적임을 입증했다. ZFNet의 구조자체는 AlexNet에서 GPU를 하나만 쓰고, 일부 Convolution레이어의 Kernel 사이즈와 stride를 일부 조절한 것 뿐이다. ZFNet의 논문의 핵심은, ZFNet의 구조 자체보다 CNN을 시각화 하여 CNN의 중간 과정을 눈으로 보고 개선 방향을 파악할 방법을 만든 것이다.

 

https://medium.com/coinmonks/paper-review-of-zfnet-the-winner-of-ilsvlc-2013-image-classification-d1a5a0c45103

 

AlexNet을 시각화 하면 위와 같다. ZFNet의 결과가 AlexNet의 결과보다 다양한 Feature를 표현하고 있으며, aliasing현상도 덜하다. ZFNet의 연구진은 AlexNet이 첫번째 convolution Layer의 필터들이 극단적인 고주파 정보, 저주파 정보만을 남겨 중간 주파 정보가 남아 있지 않는 것이 문제이며, 두번째 convolution layer는 첫번째 레이어의 convolution의 stride를 4로 설정한 것이 aliasing문제를 일으키는 것이라고 해석했다.그래서 11x11을 7x7로 수정하고 Stride를 1로 수정하고, 두번째 레이어의 stride를1에서 2로 수정했다. 이와같이 이전까지는 CNN의 학습 과정을 살펴보기 어려웠지만, ZFNet의 시각화기법으로 학습과정을 눈으로 보고 파악할 수 있게 되었다.

 

https://medium.com/coinmonks/paper-review-of-zfnet-the-winner-of-ilsvlc-2013-image-classification-d1a5a0c45103

728x90
반응형
LIST