본문 바로가기
728x90
반응형
SMALL

Data-driven Methodology98

[Data Science] 분류 분석 분류 분석 분류 분석, 예측 분석은 레코드의 특정 속성의 값을 미리 알아 맞히는 것을 목적으로 함 분류 분석은 범주형 속성의 값을 알아맞히는 것 예측 분석은 연속형 속성의 값을 알아맞히는 것 데이터가 어떤 그룹에 속하는지 예측하는데 사용 클러스터링과 유사하지만, 분류 분석은 각 그룹이 정의되어 있음 지도 학습에 속함 레코드의 범주형 속성의 값을 알아맞히는 것 분류 예 학생들의 국어, 영어, 수학 점수를 통해 내신등급을 알아맞히는 것 카드회사에서 회원들의 가입정보를 통해 1년후 신용 등급을 알아 맞히는 것 고객들의 속성을 이용해 이탈일자를 예측 분류 모델링 신용 평가 모형 우량, 불량 사기 방비 모형 사기, 정상 이탈 모형 이탈, 유지 예측 분석 시계열 분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 .. 2022. 3. 8.
[Data Science] 데이터 마이닝 데이터 마이닝 대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 통계분석과의 차이 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출 활용분야 분류 예측 군집화 시각화 방법론 인공지능 의사결정나무 K-평균군집화 연관분석 회귀분석 로짓 (Logit) 분석 최근접이웃법 데이터마이닝 방법 지도학습 비지도학습 지도학습 정답을 알려주고 학습을 진행 1등급, 2등급으로 구분 분류분석 집단을 알려주고 구분하게 함 고양이, 사자, 강아지로 사진을 구분하게 함 회귀분석 독립변수에 따라 종속변수가 어떻게 변화하는지를 예측 강남, 강북 지역의 아파트값 예측 분석방법 의사결정나무 인공신경망 로지스.. 2022. 3. 8.
[Data Science] 주성분 분석 주성분 분석 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로, 선형결합으로 변수를 축약, 축소하는 기법 여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리 주성분분석을 통해 차원을 축소하여 군집분석에서 군집화 결과와 연산 속도 개선 회귀분석에서 다중공선성 최소화 주성분분석 vs 요인분석 요인분석 등간척도로 두 개 이상의 변수들을 잠재되어 있는 공통인자를 찾아내는 기법 공통점 모두 데이터를 축소하는데 활용 몇개의 새로운 변수들로 축소 https://wikidocs.net/48111 3.3.9.주성분 분석 + 여러 변수들의 .. 2022. 3. 8.
[Data Science] 다차원 척도법 다차원 척도법 데이터 속에 잠재해 있는 패턴, 구조를 찾아서 기하학적으로 표현 개체들의 거리 계산은 유클리드 거리행렬을 활용 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값으로 표현 계량적 MDS 데이터가 구간척도나 비율척도인 경우 활용 비계량적 MDS 데이터가 순서척도인 경우 활용, 개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성한 후 적용 https://wikidocs.net/48110 3.3.8.다차원 척도법 ![2](https://t1.daumcdn.net/cfile/tistory/99F4AB505BF557732D) + MDS: Multi Dimensional Scaling ... wikidocs.net 2022. 3. 8.
[Data Science] 시계열 분석 시계열 분석 시계열 분석은 시계열 데이터를 분석하는 것으로 시계열 예측으로도 부른다. 시계열 데이터 (time series)는 관측치가 시간적 순서를 가지는 시간의 흐름에 따른 관측된 데이터다. 일정 시점에 조사된 데이터는 횡단 자료 (cross-sectional)로 분류한다. 대표 횡단 자료로 소비자 물가 지수가 있다. 시계열 자료 시간의 흐름에 따라 관찰된 값들 주식가격 데이터, 실업률, 기후 데이터 등 시계열 데이터의 분석 목적 미래의 값을 예측 특성파악 경향, 주기, 계절성, 불규칙성 등 시계열 자료 종류 비정상성 시계열 자료 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열자료가 이에 해당 정상성 시계열 자료 비정상 시계열을 변환해 다루기 쉬운 시계열 자료로 변환한 자료 정상성 정상.. 2022. 3. 8.
[Data Science] 회귀분석 회귀분석 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 영향을 주는 변수(x) 독립변수 = 설명변수 = 예측변수 영향을 받는 변수(y) 반응변수 = 종속변수 = 결과변수 사용예시 매출증대에 영향을 미치는 요소 난방비에 영향을 주는 요소 학습능력을 향상시키는 요소 독립변수가 1개 단순선형회귀분석 독립변수가 2개 다중선형회귀분석 선형회귀분석의 가정 선형성 입력변수와 출력변수의 관계가 선형 독립성 잔차와 독립변인은 관련이 없음 등분산성 독립변인의 모든 값에 대한 오차들의 분산이 일정 산점도를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족 비상관성 관측치들의 잔차들끼리 상관이 없어야 함 정상성 잔차항이 정규분포를 이뤄야.. 2022. 3. 7.
[Data Science] 기술통계 기술 통계 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리 / 요약하는 것 통계량에 의한 자료 정리 1. 중심 위치의 측도 평균 중앙값 최빈값 2. 산포의 측도 분산 표준편차 범위 사분위수범위 변동계수 표준오차 분포 형태의 측도 왜도 첨도 왜도 분포의 비대칭 정도를 나타내는 측도 양수인 경우 왼쪽으로 밀집, 오른쪽으로 긴 꼬리가 나타남 음수인 경우 오른쪽으로 밀집, 왼쪽으로 긴 꼬리가 나타남 첨도 분포의 중심에서 뾰족한 정도를 나타내는 측도 첨도를 보고 분포가 표준정규분포보다 더 뽀족한지 덜 뽀족한지 알 수 있음 양수면 표준 정규분포보다 더 뾰족함 음수면 표준 정규분포보다 덜 뾰족함 그래프를 통한 자료 정리 범주형 자료 막대그래프 파이차트 모자이크 플랏 연속형 자료 히스토그램 .. 2022. 3. 7.
[Data Science] 추정과 검정 추정 추정 표본으로부터 미지의 모수를 추측하는 것 표본의 통계량으로 부터 모수의 특성을 추측하는 것 확률표본 확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음 특정한 확률분포로부터 독립적으로 반복해 표본을 추출 동일한 모수에서 표본추출 방법을 통해 표본을 추출 각 관찰값들은 서로 독립적이며 동일한 분포를 가짐 점추정 '모수가 특정한 값일 것'이라고 추정하는 것 20대 남자의 평균키는 170cm 이다. 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정 평균, 표준편차, 중앙값 등을 추정 조건 불편성 효율성 일치성 충족성 구간추정 점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는 것 20대 남자의 평균키는 167cm~173cm 사이이며 신뢰수준은 95%이다. 항상 추정량의 .. 2022. 3. 7.
[Data Science] 확률 및 확률 분포 확률 및 확률 분포 표본공간 (Sample case) 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합 사건 (event) 관찰자가 관심이 있는 사건으로 표본공간의 부분 집합 확률변수 특정값이 나타날 가능성이 확률적으로 주어지는 변수 이산확률 변수(변수가 끊어짐) 주사위 두개를 던질때의 합 x = { 4, 3, 2, 5, 9, ... } 연속확률 변수(변수가 연속적임) 주사위 두개를 던지는 횟수 x = { 1, 2, 3, 4, 5, ... } 확률분포 확률변수가 특정한 값을 가질 확률을 나타내는 함수 주사위 두개를 던졌을 때 두눈의 합에 대한 확률 분포 이산형 확률분포 0이 아닌 확률값을 갖는 확률 변수를 셀수 있는 경우 동전 2개를 던져서 앞 / 뒷면이 나오는 경우의 수 HH : 1 / 4, .. 2022. 3. 7.
[Data Science] 기술 통계와 통계적 추론 기술 통계와 통계적 추론 기술 통계 모집단으로 부터 추출한 샘플로 통계적 결과를 계산 하는 것 '20대 남성의 평균키는 얼마인가?' 라는 질문에 대답하기 위해 국민 전체에서 20대 남성의 모든 키를 조사하는 것은 비용 및 시간상의 문제로 어렵기 때문에 300명 으로 샘플링하여 키를 조사 통계적 추론 기술 통계의 결과를 이용해서 모집단의 특성을 추출해 내는 것 앞에서 추출한 300명으로 평균키를 이용해 '20대 남성의 평균키'를 추론해 내는 것 기술 통계 (descriptive statistic) 주어진 자료로부터 주관을 배제하고 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론 샘플에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것 통계량에 의한 자료.. 2022. 3. 7.
728x90
반응형
LIST