본문 바로가기
728x90
반응형
SMALL

data science34

[Data Science] EDA (Exploratory Data Analysis) EDA (Exploratory Data Analysis) 탐색적 자료 분석 (Exploratory data analysis)은 존 튜키라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론이다. 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러 가지 탐색적 자료 분석 방법을 개발하였다. 대표적인 예로 박스플롯을 들 수 있다. 탐색적 자료 분석을 통하여 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있다. 이것은 데이터 분석에 있어서 매우 중요한, 초기 분석의 단계이자 해야하는 일이다. 데이터에 대한 일종의 견적을 내는 일이라고 비유.. 2022. 8. 26.
[Computational Science] 데이터 과학 (Data Science) 데이터 과학 (Data Science) 데이터 과학 (data science)이란, 데이터 마이닝 (Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다. 데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다. 데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 특징을 가진다. 사용되는 기술은 여러분야에 걸쳐있으며 수학, 통계학, 컴퓨터 과학, 정보공학, 패턴인식, 기계학습, 데이터마이닝, .. 2022. 3. 14.
[Data Science] 연관분석 연관규칙분석 연관성 분석은 흔히 장바구니 분석 또는 서열 분석이라고도 함 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용 장바구니 분석 장바구니에 무엇이 같이 들어 있는지에 대한 분석 서열 분석 A를 산 다음에 B를 산다. 상품 배치 연관규칙의 형태 조건과 반응의 형태 (if-then)로 이루어짐 if A then B 만일 A가 일어나면 B가 일어난다. 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다. 샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다. 연관규칙의 측도 산업의 특성에 따라 지지도, 신뢰도, 향상도 값을 잘 보고 규칙을 선택 지지도 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율 지지도 = A와 B가 동시에.. 2022. 3. 8.
[Data Science] 인공신경망 분석 인공신경망 분석 인공신경망이란 뇌를 기반으로 한 추론 모델 뉴런이라는 기본적인 정보처리 단위를 기준으로 설계 인간의 뇌는 100억개의 뉴런과 각 뉴런을 연결하는 6조개의 시냅스로 이루어져 있으며 매우 복잡하고, 비선형적이며, 병렬적인 정보 처리 시스템 인공신경망은 뉴런이라는 아주 단순하지만 내부적으로는 매우 복합적으로 연결된 프로세스들로 이루어져 있음 각각의 뉴런은 연결을 통해 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성 역전파 일고리즘 사용 뉴런 입력 링크에서 여러 신호를 받아서 새로운 활성화 수준으로 계산하고, 출력 링크로 출력신호를 보내는 역할 뉴런의 입력신호는 미가공 데이터 또는 다른 뉴런의 출력신호도 될 수 있음 뉴런의 출력신호는 문제의 최종적인 해가 되거나 다른 뉴런에 입력신호로 활.. 2022. 3. 8.
[Data Science] 앙상블 분석 앙상블 분석 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법 다중모델조합, 분류기조합이 있음 훈련을 한 뒤 예측을 하는데 사용하므로 지도학습 학습방법의 불안전성 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우 그 학습방법은 불안정 안정적인 방법 1-nearest neighbor 선형회귀모형 불안정적인 방법 의사결정모형 앙상블 기법의 종류 1. 배깅 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법 배깅은 반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러번 추출될 수 있고, 어떤 데이터는 추출되지 않을 수도 있음 배깅은 가지치기를 하지 않고 최대.. 2022. 3. 8.
[Data Science] 분류 분석 분류 분석 분류 분석, 예측 분석은 레코드의 특정 속성의 값을 미리 알아 맞히는 것을 목적으로 함 분류 분석은 범주형 속성의 값을 알아맞히는 것 예측 분석은 연속형 속성의 값을 알아맞히는 것 데이터가 어떤 그룹에 속하는지 예측하는데 사용 클러스터링과 유사하지만, 분류 분석은 각 그룹이 정의되어 있음 지도 학습에 속함 레코드의 범주형 속성의 값을 알아맞히는 것 분류 예 학생들의 국어, 영어, 수학 점수를 통해 내신등급을 알아맞히는 것 카드회사에서 회원들의 가입정보를 통해 1년후 신용 등급을 알아 맞히는 것 고객들의 속성을 이용해 이탈일자를 예측 분류 모델링 신용 평가 모형 우량, 불량 사기 방비 모형 사기, 정상 이탈 모형 이탈, 유지 예측 분석 시계열 분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 .. 2022. 3. 8.
[Data Science] 주성분 분석 주성분 분석 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로, 선형결합으로 변수를 축약, 축소하는 기법 여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리 주성분분석을 통해 차원을 축소하여 군집분석에서 군집화 결과와 연산 속도 개선 회귀분석에서 다중공선성 최소화 주성분분석 vs 요인분석 요인분석 등간척도로 두 개 이상의 변수들을 잠재되어 있는 공통인자를 찾아내는 기법 공통점 모두 데이터를 축소하는데 활용 몇개의 새로운 변수들로 축소 https://wikidocs.net/48111 3.3.9.주성분 분석 + 여러 변수들의 .. 2022. 3. 8.
[Data Science] 다차원 척도법 다차원 척도법 데이터 속에 잠재해 있는 패턴, 구조를 찾아서 기하학적으로 표현 개체들의 거리 계산은 유클리드 거리행렬을 활용 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값으로 표현 계량적 MDS 데이터가 구간척도나 비율척도인 경우 활용 비계량적 MDS 데이터가 순서척도인 경우 활용, 개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성한 후 적용 https://wikidocs.net/48110 3.3.8.다차원 척도법 ![2](https://t1.daumcdn.net/cfile/tistory/99F4AB505BF557732D) + MDS: Multi Dimensional Scaling ... wikidocs.net 2022. 3. 8.
[Data Science] 회귀분석 회귀분석 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 영향을 주는 변수(x) 독립변수 = 설명변수 = 예측변수 영향을 받는 변수(y) 반응변수 = 종속변수 = 결과변수 사용예시 매출증대에 영향을 미치는 요소 난방비에 영향을 주는 요소 학습능력을 향상시키는 요소 독립변수가 1개 단순선형회귀분석 독립변수가 2개 다중선형회귀분석 선형회귀분석의 가정 선형성 입력변수와 출력변수의 관계가 선형 독립성 잔차와 독립변인은 관련이 없음 등분산성 독립변인의 모든 값에 대한 오차들의 분산이 일정 산점도를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족 비상관성 관측치들의 잔차들끼리 상관이 없어야 함 정상성 잔차항이 정규분포를 이뤄야.. 2022. 3. 7.
[Data Science] 추정과 검정 추정 추정 표본으로부터 미지의 모수를 추측하는 것 표본의 통계량으로 부터 모수의 특성을 추측하는 것 확률표본 확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음 특정한 확률분포로부터 독립적으로 반복해 표본을 추출 동일한 모수에서 표본추출 방법을 통해 표본을 추출 각 관찰값들은 서로 독립적이며 동일한 분포를 가짐 점추정 '모수가 특정한 값일 것'이라고 추정하는 것 20대 남자의 평균키는 170cm 이다. 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정 평균, 표준편차, 중앙값 등을 추정 조건 불편성 효율성 일치성 충족성 구간추정 점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는 것 20대 남자의 평균키는 167cm~173cm 사이이며 신뢰수준은 95%이다. 항상 추정량의 .. 2022. 3. 7.
728x90
반응형
LIST