본문 바로가기
Learning-driven Methodology/DL (Deep Learning)

[Deep Learning] 가중치 감소 (Weight Decay)

by goatlab 2022. 1. 3.
728x90
반응형
SMALL

가중치 감소 (Weight Decay)

 

훈련 데이터가 매우 많다면 overfitting을 줄일 수 있지만, 현실적인 이유로 그러지 못하는 경우가 있다. 이런 상황에서 overfitting을 줄이도록 하는 여러 기법 중 하나가 바로 가중치 감소이다. 이것은 학습 과정에서 큰 가중치에 대해서 그에 상응하는 큰 패널티를 부과하여 overfitting을 억제하는 방법이다. overfitting은 weight 매개변수의 값이 커서 발생하는 경우가 많기 때문이다.

 

 

규제 (Regularization)

 

weight decay에는 규제 (Regularization)가 이용된다. regularization란 weight의 절댓값을 가능한 작게 만드는 것으로, weight의 모든 원소를 0에 가깝게 하여 모든 특성이 출력에 주는 영향을 최소한으로 만드는 것 (기울기를 작게 만드는 것)을 의미한다. regularization란 overfitting이 되지 않도록 모델을 강제로 제한한다는 의미이다. 여기서 regularization에는 L1, L2규제가 있다.

 

L2 규제

 

각 weight 제곱의 합에 규제 강도 (Regularization Strength) λ를 곱한다. 그 값을 loss function에 더한다. λ를 크게 하면 가중치가 더 많이 감소되고 (규제를 중요시함), λ를 작게 하면 가중치가 증가한다 (규제를 중요시하지 않음). weight를 갱신할 때, loss function의 미분값을 이전 weight에서 빼서 다음 weight를 계산한다. 따라서 weight가 크면 loss function이 커지고, 다음 weight가 크게 감소된다. 

 

L1 규제

 

L1 규제는 weight의 제곱의 합이 아닌 가중치의 합을 더한 값에 regularization strength λ를 곱하여 오차에 더한다. 이렇게 하면 L2 규제와는 달리 어떤 가중치는 실제로 0이 된다. 즉, 모델에서 완전히 제외되는 특성이 생기는 것이다. 일부 계수를 0으로 만듦으로써 모델을 이해하기 쉬워지고, 모델의 가장 중요한 feature가 무엇인지 알 수 있다. 그러나 L2 규제가 L1 규제에 비해 더 안정적이라 일반적으로는 L2규제가 더 많이 사용된다.

 

 

728x90
반응형
LIST