본문 바로가기
728x90
반응형
SMALL

최적화3

[Image Classification] ResNet (2) Skip connection ResNet에서 Skip connection은 2개의 레이어를 건너뛰는 형태로 제작되었다. 레이어에 들어오는 입력이 Skip connection을 통해서 건너뛰어 레이어를 거친 출력과 Element-wise addition을 한다. 즉, 기울기를 residual block과 함께 더 깊은 레이어로 전송한다. Plain network의 경우 18층에서 34층으로 깊이를 늘리면 학습 오류가 늘어나는 것을 볼 수 있다. ResNet의 경우 degradation 문제가 어느정도 해결됨을 알 수 있다. 모델 depth 비교 또한, Re-ResNet도 신경망의 깊이가 점점 깊어지면 parameter의 수가 많아지기 때문에 residual block을 다른 구조로 사용하는 방식이 고안되었.. 2022. 9. 13.
[Deep Learning] 최적화 (Optimizer) 최적화 (Optimizer) 데이터의 크기가 클수록 훈련 속도는 느려진다. 따라서 neural network를 빠르게 훈련하기 위해 효율성을 높이기 위한 최적화 알고리즘을 잘 선택해야 한다. Gradient Descent 경사하강법에서는 θ 에 대해 gradient의 반대 방향으로 일정 크기만큼 이동해내는 것을 반복하여 loss function J(θ) 의 값을 최소화하는 파라미터 w, b를 찾는다. gradient descent은 무작정 기울어진 방향으로 이동하는 방식이기 때문에 탐색 경로가 비효율적이다. 또한 SGD는 방향에 따라서 기울기 값이 달라지는 경우에 적합하지 않은데 최소값의 방향으로만 움직이기 때문에 본래의 최저점으로 기울기의 방향이 좀처럼 향하지 않게 되고 다른 방향을 가리키게 되어 비효.. 2022. 1. 3.
[Keras] 컴파일 (Compile) 컴파일 (Compile) 모델을 학습시키기 이전에, compile 메소드를 통해서 학습 방식에 대한 환경설정을 해야 한다. 다음의 세 개의 인자를 입력으로 받는다. 최적화 (optimizer) rmsprp나 adagrad와 같은 기존의 정규화기에 대한 문자열 식별자 또는 Optimizer 클래스의 인스턴스를 사용할 수 있다. 오차역전파로 node의 weight와 bias을 계속 업데이트하여 만들어진 model을 통해 더 나은 결과를 얻는다. 데이터의 양이 늘어나거나 hidden layer의 개수가 늘어날수록 계산이 복잡해지고 시간이 오래 걸린다. 따라서 이 시간을 줄이기 위한 방법이 경사하강법 (Gradient Descent)이다. gradient descent이란 loss function 그래프에서 학.. 2021. 12. 20.
728x90
반응형
LIST