본문 바로가기
728x90
반응형
SMALL

Batch size3

[Data Science] 경사 하강법 (Gradient Descent) 경사 하강법 (Gradient Descent) 손실 함수의 최소값을 찾기 위한 알고리즘이다. 실생활에서 적용되는 데이터들은 함수 형태가 복잡하여 미분 계수를 계산하는 과정에 비해 비교적 쉽게 구현 가능하다. 데이터 양이 커질수록 계산량 측면에서 효율적이다. 임의의 매개변수를 정해 비용 함수의 시작 지점 (x축)으로 지정 해당 매개변수로 모델의 오차를 구한 다음, 비용 함수의 시작 지점 (y축)으로 지정 시작 지점에서 다음 지점으로 갈 방향을 정하기 위해, 시작 지점의 기울기를 계산 기울기 (Gradient)와 보폭 (Learning rate)를 사용해 다음 지점으로 이동 위의 과정을 최소값에 도달할 때까지 반복 학습률 (Learning rate)이 너무 크면 발산할 수 있고, 학습률이 너무 작으면 학습 .. 2022. 11. 10.
[ANN] RNN basics (Vanilla) ANN에서 sequence data는 어떻게 다룰 것인가? • We don’t understand one word only • We understand based on the previous words + this word. (time series) • NN/CNN cannot do this RNN 위를 cell이라고 표현하는데, cell의 아웃풋이 다시 cell에 영향을 주게 된다. 이것은 기존의 Neural Network과 다른점이다. 바닐라 (Vanilla) RNN은 가장 기본적인 RNN이다. 이전에 사용하던 NN와는 다르게 tanh를 사용한다. new state 값은, old state 값과 입력값을 처리하는 함수를 통해 출력된다. Ht는 state 값을 나타낸다. 현재 state 값에 대한 함수.. 2022. 1. 5.
[Deep Learning] 경사 하강법 (Gradient Descent) / 배치 사이즈 (Batch Size) / 에포크 (Epoch) 경사 하강법 (Gradient Descent) 반복 (iterative, 곡선의 최소값) 최상의 결과를 찾기 위해 기계 학습에 사용되는 최적화 알고리즘이다. 알고리즘은 iterative이므로 최적의 결과를 얻으려면 여러 번 결과를 얻어야 한다. gradient descent의 반복적인 quality은 과소 적합 (under-fitted) 그래프가 그래프를 데이터에 최적으로 맞추는 데 도움이 된다. gradient descent에는 학습률 (learning rate)이라는 매개변수 (parameter)가 있다. 왼쪽 그림에서 처음에는 단계가 더 크다는 것은 learning rate이 더 높다는 것을 의미하고, 포인트가 내려갈수록 단계의 크기가 짧을수록 learning rate은 더 작아진다. 또한, 비용 .. 2021. 12. 22.
728x90
반응형
LIST