본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 통계 분석

by goatlab 2022. 3. 7.
728x90
반응형
SMALL

통계

 

  • 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
  • 모집단에서 표본을 추출하여 통계량을 조사
  • 통계량에서 모수의 특성을 추론
    • 통계량을 이용해 모집단의 특징을 추정
    • 추정한 가설을 통계학의 기법 (모수검정, 비모수검정)을 이용해 정확성을 검정

 

통계 용어

 

  • 모집단
    • 조사하고자 하는 대상 집단 전체
    • 한국인 전체
  • 표본
    • 조사하기 위해 추출한 모집단
    • 20대 남성 300명
  • 통계량
    • 표본을 관측한 결과
    • 20대 남성 300명 키의 평균, 표준편차, 분산
  • 모수
    • 통계량을 통해 추정한 모집단에 대한 정보
    • 우리나라 20대 남성 키의 평균
      • 표본 추출한 300명을 통해 추정한 결과

 

자료 획득 방법

 

  • 총 조사 / 전수 조사
    • 모든 대상을 조사해야 해서 특별한 경우를 제외하고는 잘 사용되지 않음
      • 인구주택 총 조사
  • 표본조사
    • 모집단에서 샘플을 추출하여 진행하는 조사
      • 20대 남성의 평균키, 당뇨병 신약의 효과 등을 조사하기 위해서 모든 데이터를 조사하는 것은 불가능하기 때문에 20대 1000명, 당뇨병이 있는 300명 처럼 모집단에서 표본을 추출하여 조사

 

표본 추출 방법

 

표본조사의 중요한 점은 모집단을 대표할 수 있는 표본 추출이므로 표본 추출 방법에 따라 분석결과의 해석에 큰 차이가 발생한다. (N개의 모집단에서 n개의 표본을 추출하는 경우)
  • 단순랜덤추출법
    • 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법
  • 계통추출법
    • 단순랜덤추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 구간마다 표본을 선택
    • 임의 위치에서 매 k번째 항목을 추출하는 방법
  • 집락추출법
    • 군집을 구분하고 군집별로 단순 랜덤 추출법을 수행한 후, 모든 자료를 활용하거나 샘플링 하는 방법
  • 층화추출법
    • 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법

 

자료 측정 방법

 

측정은 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
  • 질적 척도 (qualitatiave)
    • 범주형 (categorical) 자료. 숫자들의 크기 차이가 계산되지 않는 척도
    • 수학적 연산 결과는 의미가 없기 때문에 연산의 개념을 적용할 수 없음
    • 명목척도
      • 측정 대상이 어느 집단에 속하는지 분류할 때 사용
      • 성별 (남자=1, 여자=2), 출생지, 자동차 브랜드명
    • 순서척도/서열척도
      • 측정 대상의 서열관계를 관측하는 척도
      • 만족도 (상=1, 중=2, 하=3), 선호도, 학년, 신용등급
  • 양적 척도
    • 수치형자료. 숫자들의 크기 차이를 계산할 수 있는 척도
    • 구간척도 / 등간척도
      • 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간 사이의 간격이 의미가 있는 자료
      • 온도, 지수
    • 비율척도
      • 간격에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도
      • 무게, 나이, 시간, 거리

 

https://wikidocs.net/48102

 

3.3.1.기초 통계

# 통계 + 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 + 모집단에서 표본을 추출하여 통계량을 조사 + 통계량에서 모수의 특성을 ...

wikidocs.net

 

728x90
반응형
LIST