본문 바로가기
728x90
반응형
SMALL

Data-driven Methodology/DS (Data Science)58

[Data Science] 회귀분석 회귀분석 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 영향을 주는 변수(x) 독립변수 = 설명변수 = 예측변수 영향을 받는 변수(y) 반응변수 = 종속변수 = 결과변수 사용예시 매출증대에 영향을 미치는 요소 난방비에 영향을 주는 요소 학습능력을 향상시키는 요소 독립변수가 1개 단순선형회귀분석 독립변수가 2개 다중선형회귀분석 선형회귀분석의 가정 선형성 입력변수와 출력변수의 관계가 선형 독립성 잔차와 독립변인은 관련이 없음 등분산성 독립변인의 모든 값에 대한 오차들의 분산이 일정 산점도를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족 비상관성 관측치들의 잔차들끼리 상관이 없어야 함 정상성 잔차항이 정규분포를 이뤄야.. 2022. 3. 7.
[Data Science] 기술통계 기술 통계 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리 / 요약하는 것 통계량에 의한 자료 정리 1. 중심 위치의 측도 평균 중앙값 최빈값 2. 산포의 측도 분산 표준편차 범위 사분위수범위 변동계수 표준오차 분포 형태의 측도 왜도 첨도 왜도 분포의 비대칭 정도를 나타내는 측도 양수인 경우 왼쪽으로 밀집, 오른쪽으로 긴 꼬리가 나타남 음수인 경우 오른쪽으로 밀집, 왼쪽으로 긴 꼬리가 나타남 첨도 분포의 중심에서 뾰족한 정도를 나타내는 측도 첨도를 보고 분포가 표준정규분포보다 더 뽀족한지 덜 뽀족한지 알 수 있음 양수면 표준 정규분포보다 더 뾰족함 음수면 표준 정규분포보다 덜 뾰족함 그래프를 통한 자료 정리 범주형 자료 막대그래프 파이차트 모자이크 플랏 연속형 자료 히스토그램 .. 2022. 3. 7.
[Data Science] 추정과 검정 추정 추정 표본으로부터 미지의 모수를 추측하는 것 표본의 통계량으로 부터 모수의 특성을 추측하는 것 확률표본 확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음 특정한 확률분포로부터 독립적으로 반복해 표본을 추출 동일한 모수에서 표본추출 방법을 통해 표본을 추출 각 관찰값들은 서로 독립적이며 동일한 분포를 가짐 점추정 '모수가 특정한 값일 것'이라고 추정하는 것 20대 남자의 평균키는 170cm 이다. 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정 평균, 표준편차, 중앙값 등을 추정 조건 불편성 효율성 일치성 충족성 구간추정 점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는 것 20대 남자의 평균키는 167cm~173cm 사이이며 신뢰수준은 95%이다. 항상 추정량의 .. 2022. 3. 7.
[Data Science] 확률 및 확률 분포 확률 및 확률 분포 표본공간 (Sample case) 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합 사건 (event) 관찰자가 관심이 있는 사건으로 표본공간의 부분 집합 확률변수 특정값이 나타날 가능성이 확률적으로 주어지는 변수 이산확률 변수(변수가 끊어짐) 주사위 두개를 던질때의 합 x = { 4, 3, 2, 5, 9, ... } 연속확률 변수(변수가 연속적임) 주사위 두개를 던지는 횟수 x = { 1, 2, 3, 4, 5, ... } 확률분포 확률변수가 특정한 값을 가질 확률을 나타내는 함수 주사위 두개를 던졌을 때 두눈의 합에 대한 확률 분포 이산형 확률분포 0이 아닌 확률값을 갖는 확률 변수를 셀수 있는 경우 동전 2개를 던져서 앞 / 뒷면이 나오는 경우의 수 HH : 1 / 4, .. 2022. 3. 7.
[Data Science] 기술 통계와 통계적 추론 기술 통계와 통계적 추론 기술 통계 모집단으로 부터 추출한 샘플로 통계적 결과를 계산 하는 것 '20대 남성의 평균키는 얼마인가?' 라는 질문에 대답하기 위해 국민 전체에서 20대 남성의 모든 키를 조사하는 것은 비용 및 시간상의 문제로 어렵기 때문에 300명 으로 샘플링하여 키를 조사 통계적 추론 기술 통계의 결과를 이용해서 모집단의 특성을 추출해 내는 것 앞에서 추출한 300명으로 평균키를 이용해 '20대 남성의 평균키'를 추론해 내는 것 기술 통계 (descriptive statistic) 주어진 자료로부터 주관을 배제하고 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론 샘플에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것 통계량에 의한 자료.. 2022. 3. 7.
[Data Science] 통계 분석 통계 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 모집단에서 표본을 추출하여 통계량을 조사 통계량에서 모수의 특성을 추론 통계량을 이용해 모집단의 특징을 추정 추정한 가설을 통계학의 기법 (모수검정, 비모수검정)을 이용해 정확성을 검정 통계 용어 모집단 조사하고자 하는 대상 집단 전체 한국인 전체 표본 조사하기 위해 추출한 모집단 20대 남성 300명 통계량 표본을 관측한 결과 20대 남성 300명 키의 평균, 표준편차, 분산 모수 통계량을 통해 추정한 모집단에 대한 정보 우리나라 20대 남성 키의 평균 표본 추출한 300명을 통해 추정한 결과 자료 획득 방법 총 조사 / 전수 조사 모든 대상을 조사해야 해서 특별한 경우를 제외하고는 잘 사용되지 않음 인구주택 총 .. 2022. 3. 7.
[Data Science] 데이터 분석 기법 분석을 위한 데이터 처리 과정 데이터 분석을 위해서 데이터웨어하우스나 데이터마트를 통해 분석데이터를 구성 신규데이터나 DW에 없는 데이터는 기존 운영시스템 (legacy)에서 가져오거나 운영 데이터 저장소 (ODS)에서 정제된 데이터를 가져와서 DW의 데이터와 결합하여 활용 데이터 분석 기법 종류 시각화 공간분석 탐색적 자료 분석 통계분석 데이터 마이닝 시각화 가장 낮은 수준의 분석이지만 잘 이용하면 효율적 빅데이터 분석에 시각화는 필수적 탐색적 분석을 할 때 시각화는 필수 사회연결망 분석 (SNA)에 자주 이용 ex) 차트, 도표 등 공간분석 공간적 차원과 관련된 속성들을 시각화하는 분석 지도 위에 관련된 속성들을 생성하고 크기모양 선 굵기 등을 구분하여 인사이트를 얻음 ex) 지도 위의 자동차 운행 .. 2022. 3. 7.
데이터 사이언스 (Data Science) 데이터 사이언스 (Data Science) data science는 통계, 과학적 방법, AI 및 데이터 분석을 포함한 여러 분야를 결합하여 데이터에서 가치를 추출한다. data science를 실천하는 사람들을 data scientist라고 하며, 그들은 다양한 기술을 결합해 웹, 스마트폰, 고객, 센서 및 기타 소스에서 수집된 데이터를 분석하고 실행 가능한 통찰력 (insight)을 도출한다. data science에는 고급 데이터 분석을 수행하기 위한 데이터 정리, 집계 및 조작을 포함하여 분석을 위한 데이터 준비가 포함된다. 그런 다음 분석 애플리케이션과 data scientist가 결과를 검토하여 패턴을 발견하면 정보에 입각한 insight를 얻을 수 있다. Data Science, AI 및 M.. 2021. 12. 21.
728x90
반응형
LIST