본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 회귀 모델

by goatlab 2022. 9. 29.
728x90
반응형
SMALL

단순 선형 회귀 분석

 

https://reallifecam.com/hello?ts=a39897076334f280eac2ef6c&tc=5c910e7645cdbaec03a55f14

 

입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법이다. 회귀 분석 중 간단한 방법으로 통계학에서 배우는 대부분의 회귀 모델은 선형 회귀, 딥러닝은 대표적인 비선형 회귀이다.

 

  • 종속 변수 : 독립 변수의 변화에 따라 어떻게 변하는지 알고싶어하는 변수
  • 독립 변수 : 다른 변수의 영향을 받지 않는 변수

 

회귀 모델은 독립 변수에 따라 종류가 달라진다.

 

  • 단순 선형 회귀 : 독립 변수가 1개인 경우
  • 다중 선형 회귀 : 독립 변수가 2개 이상인 경우
  • 다항 회귀 : 독립 변수의 차수를 높이는 형태

https://edakilicaslan.medium.com/linear-regression-182f02a87037

 

입력 변수가 X, 출력 변수가 Y일 때, 단순 선형 회귀의 회귀식은 검은 선으로 나타낼 수 있다. 𝛽0는 절편, 𝛽1은 기울기이며 합쳐서 회귀 계수 (coefficients)라고도 불린다.

 

  • 검은 점 : 모집단의 모든 데이터
  • 빨간 점 : 학습집합의 데이터
  • 실제 𝛽0, 𝛽1는 구할 수 없는 계수로 데이터를 통해 이 둘을 추정하여 구한다.


단 X, Y는 선형 관계 일시 성립한다.

 

추정 방법

 

  • 여러 개의 직선 중 가장 좋은 직선을 찾는다.
  • 가장 좋은 직선은 직선과 데이터의 차이가 평균적으로 가장 작아지는 직선
  • 실제 값과 추정한 값의 차이가 적으면 적을수록 좋다.
  • 실제 값과 추정한 값의 차이를 잔차 (residual)라고 하며 이를 최소화 하는 방향으로 추정을 진행한다.

잔차 (residual)






잔차의 제곱합

 

잔차의 제곱합을 최소화시키는 이유는 잔차의 합이 0이 되는 해는 무수히 많아 유일한 해를 찾지 못한다. 잔차의 절대값의 합은 미분이 불가능한 형태이며 잔차의 제곱 합은 미분이 가능한 형태로 유일한 해를 찾을 수 있다.

 

학습

 

 

잔차의 제곱의 값 (SSE)가 작아지도록 최적화 시키는 과정을 학습 (train)이라 한다. 데이터를 학습하면서 기울기와 절편의 값을 천천히 수정한다. 손실 함수를 미분하여 최소값을 찾을 수는 있으나 복잡도가 매우 커서 비효율적이다.

 

 

728x90
반응형
LIST