회귀분석
- 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
- 영향을 주는 변수(x)
- 영향을 받는 변수(y)
- 사용예시
- 매출증대에 영향을 미치는 요소
- 난방비에 영향을 주는 요소
- 학습능력을 향상시키는 요소
- 독립변수가 1개
- 독립변수가 2개
|
선형회귀분석의 가정
- 선형성
- 독립성
- 등분산성
- 독립변인의 모든 값에 대한 오차들의 분산이 일정
- 산점도를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족
- 비상관성
- 정상성
|
* 등분산성을 만족하지 못하는 경우
가정에 대한 검증
- 단순선형회귀분석
- 입력변수와 출력변수간의 선형성을 점검하기 위해 산점도를 확인
- 다중선형회귀분석
- 선형회귀분석의 가정인 선형성, 등분산성, 독립성, 정상성이 모두 만족해야 함
|
단순선형회귀분석
- 독립변수가 1개이며 종속변수와의 관계가 직선
- 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
- 검토사항
- 회귀계수들이 유의미한가?
- 해당 계수의 t 통계량의 p값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의미 하다고 볼 수 있다.
- 모형이 얼마나 설명력을 갖는가?
- 모형이 데이터를 잘 적합하고 있는가?
- 회귀계수의 추정
|
다중회귀분석
- 독립변수가 k이며 종속변수와의 관계가 선형
- 모형의 통계적 유의성
- 모형의 통계적 유의성은 F통계량으로 확인
- 유의수준 5%항에서 F통계량의 p값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.
|
회귀분석의 종류
- 단순회귀
- 다중회귀
- 로지스틱 회귀
- 종속변수가 범주형인 경우에 적용되며, 단순로지스틱 회귀, 다중로직스틱 회귀, 다항로지스틱 회귀로 확장
- 다항회귀
- 독립변수와 종속변수와의 관계가 1차함수 이상인 관계
- 곡선회귀
- 비선형 회귀
- 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형
|
회귀분석의 검정
- 회귀식 (모형)에 대한 검증
- 회귀계수들에 대한 검증
|
변수선택법
- 전진선택법
- 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
- 이해 쉬움
- 많은 변수에서 활용 가능
- 변수 값의 작은 변동에 결과가 달라져 안정성이 부족
- 후진소거법
- 독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거
- 전체 변수들의 정보를 이용 가능
- 변수가 많은 경우 활용이 어려움
- 안정성 부족
- 단계별방법
- 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을 때 중단
|
회귀분석 모형의 추정
회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값을 구하고, 이와 같이 구해진 회귀계수 추정량을 최소제곱이라고 함
https://wikidocs.net/48108