본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 회귀분석

by goatlab 2022. 3. 7.
728x90
반응형
SMALL

회귀분석

 

  • 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
    • 영향을 주는 변수(x)
      • 독립변수 = 설명변수 = 예측변수
    • 영향을 받는 변수(y)
      • 반응변수 = 종속변수 = 결과변수
  • 사용예시
    • 매출증대에 영향을 미치는 요소
    • 난방비에 영향을 주는 요소
    • 학습능력을 향상시키는 요소
  • 독립변수가 1개
    • 단순선형회귀분석
  • 독립변수가 2개
    • 다중선형회귀분석

 

선형회귀분석의 가정

 

  • 선형성
    • 입력변수와 출력변수의 관계가 선형
  • 독립성
    • 잔차와 독립변인은 관련이 없음
  • 등분산성
    • 독립변인의 모든 값에 대한 오차들의 분산이 일정
    • 산점도를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족
  • 비상관성
    • 관측치들의 잔차들끼리 상관이 없어야 함
  • 정상성
    • 잔차항이 정규분포를 이뤄야 함

 

* 등분산성을 만족하지 못하는 경우

 

 

가정에 대한 검증

 

  • 단순선형회귀분석
    • 입력변수와 출력변수간의 선형성을 점검하기 위해 산점도를 확인
  • 다중선형회귀분석
    • 선형회귀분석의 가정인 선형성, 등분산성, 독립성, 정상성이 모두 만족해야 함

 

단순선형회귀분석

 

  • 독립변수가 1개이며 종속변수와의 관계가 직선
  • 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
  • 검토사항
    • 회귀계수들이 유의미한가?
      • 해당 계수의 t 통계량의 p값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의미 하다고 볼 수 있다.
    • 모형이 얼마나 설명력을 갖는가?
      • 결정계수값이 높을 수록 설명력이 높음
    • 모형이 데이터를 잘 적합하고 있는가?
      • 잔차를 그래프로 그리고 회귀진단을 한다.
  • 회귀계수의 추정
    • 최소제곱법
    • 최소자승법

 

다중회귀분석

 

  • 독립변수가 k이며 종속변수와의 관계가 선형
  • 모형의 통계적 유의성
    • 모형의 통계적 유의성은 F통계량으로 확인
    • 유의수준 5%항에서 F통계량의 p값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.

 

회귀분석의 종류

 

  • 단순회귀
    • 독립변수가 1개이며 종속변수와의 관계가 직선
  • 다중회귀
    • 독립변수가 k개이며 종속변수와의 관계가 선형
  • 로지스틱 회귀
    • 종속변수가 범주형인 경우에 적용되며, 단순로지스틱 회귀, 다중로직스틱 회귀, 다항로지스틱 회귀로 확장
  • 다항회귀
    • 독립변수와 종속변수와의 관계가 1차함수 이상인 관계
  • 곡선회귀
    • 독립변수가 1개이며 종속변수와의 관계가 곡선
  • 비선형 회귀
    • 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형

 

회귀분석의 검정

 

  • 회귀식 (모형)에 대한 검증
    • F-검정
  • 회귀계수들에 대한 검증
    • t-검정

 

변수선택법

 

  • 전진선택법
    • 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
    • 이해 쉬움
    • 많은 변수에서 활용 가능
    • 변수 값의 작은 변동에 결과가 달라져 안정성이 부족
  • 후진소거법
    • 독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거
    • 전체 변수들의 정보를 이용 가능
    • 변수가 많은 경우 활용이 어려움
    • 안정성 부족
  • 단계별방법
    • 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을 때 중단

 

회귀분석 모형의 추정

 

회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값을 구하고, 이와 같이 구해진 회귀계수 추정량을 최소제곱이라고 함

 

https://wikidocs.net/48108

 

3.3.6.회귀분석

+ 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 + 영향을 주는 변수(x) + 독립변수 = 설명변수 = 예측변수 + ...

wikidocs.net

 

728x90
반응형
LIST