본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 기술통계

by goatlab 2022. 3. 7.
728x90
반응형
SMALL

기술 통계

 

자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리 / 요약하는 것

 

통계량에 의한 자료 정리

 

1. 중심 위치의 측도

 

  • 평균
  • 중앙값
  • 최빈값

 

2. 산포의 측도

 

  • 분산
  • 표준편차
  • 범위
  • 사분위수범위
  • 변동계수
  • 표준오차

 

분포 형태의 측도

 

  • 왜도
  • 첨도

 

왜도

 

  • 분포의 비대칭 정도를 나타내는 측도
  • 양수인 경우 왼쪽으로 밀집, 오른쪽으로 긴 꼬리가 나타남
  • 음수인 경우 오른쪽으로 밀집, 왼쪽으로 긴 꼬리가 나타남

 

첨도

 

  • 분포의 중심에서 뾰족한 정도를 나타내는 측도
  • 첨도를 보고 분포가 표준정규분포보다 더 뽀족한지 덜 뽀족한지 알 수 있음
  • 양수면 표준 정규분포보다 더 뾰족함
  • 음수면 표준 정규분포보다 덜 뾰족함

 

그래프를 통한 자료 정리

 

  • 범주형 자료
    • 막대그래프
    • 파이차트
    • 모자이크 플랏
  • 연속형 자료
    • 히스토그램
    • 줄기-잎 그림
    • 상자 그림

 

인과관계의 이해

 

  • 영향을 주는 변수(x)
    • 독립변수 = 설명변수 = 예측변수
  • 영향을 받는 변수(y)
    • 반응변수 = 종속변수 = 결과변수
  • 산점도
    • 두 변수 사이의 선형관계가 성립하는가?
    • 두 변수 사이의 함수관계가 성립하는가?
    • 이상값의 존재 여부와 몇 개의 집단으로 구분되는지를 확인
  • 공분산
    • 두 변수간의 상관 정도를 상관계수를 통해 확인할 수 있음
    • 공분산의 부호가 +이면 두 변수는 양의 방향성
    • 공분산의 부호가 -이면 두 변수는 음의 방향성

 

상관 분석

 

  • 두 변수 간의 관계를 상관 계수를 이용해서 알아보는 분석 방법
  • 상관 계수가 1에 가까울수록 강한 양의 상관 관계
  • 상관 계수가 -1에 가까울수록 강한 음의 상관 관계
  • 상관 계수가 0인 경우 데이터간의 상관이 없음
  • 상관 계수는 두 변수간의 상관 정도를 나타내는 것이지 인과 관계를 설명하는 것은 아님

 

상관 분석의 가설 검정

 

  • 상관 계수가 0이면 입력변수 x와 출력변수 y사이에는 아무런 관계가 없음
    • 귀무가설: 상관계수 = 0
    • 대랍가설: 상관계수 != 0
  • t-검정통계량을 통해 얻은 p-value 값이 0.05이하인 경우, 귀무가설을 기각하고 대립가설을 채택
    • 이때 구한 상관계수를 활용

 

https://wikidocs.net/48107

 

3.3.5.기술통계

+ 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것 # 통계량에 의한 자료 정리 ## 중심 위치의 측도 + 평균 + 중앙값 + ...

wikidocs.net

 

728x90
반응형
LIST