본문 바로가기
728x90
반응형
SMALL

Data-driven Methodology83

데이터 공학 (Data Engineering) 데이터 공학 (Data Engineering) 데이터 공학은 대규모 데이터 수집, 저장 및 분석을 위한 시스템을 설계하고 구축하는 작업이다. 거의 모든 산업에 응용 프로그램이 있는 광범위한 분야이다. 조직은 방대한 양의 데이터를 수집할 수 있는 능력을 갖추고 있으며, 데이터 과학자와 분석가에게 전달될 때까지 데이터의 가용성이 높은 상태를 유지할 수 있는 적절한 인력과 기술이 필요하다. 데이터 과학자의 삶을 더 쉽게 만들 수 있을 뿐만 아니라, 데이터 엔지니어로 일하는 것은 세계에서 실질적인 변화를 가져올 수 있는 기회를 제공할 수 있다. 머신러닝과 딥러닝과 같은 분야는 데이터 엔지니어가 해당 데이터를 처리하고 채널링하지 않으면 성공할 수 없다. 데이터 엔지니어는 다양한 환경에서 작업하여 원시 데이터를 수.. 2022. 5. 11.
[Data Science] 연관분석 연관규칙분석 연관성 분석은 흔히 장바구니 분석 또는 서열 분석이라고도 함 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용 장바구니 분석 장바구니에 무엇이 같이 들어 있는지에 대한 분석 서열 분석 A를 산 다음에 B를 산다. 상품 배치 연관규칙의 형태 조건과 반응의 형태 (if-then)로 이루어짐 if A then B 만일 A가 일어나면 B가 일어난다. 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다. 샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다. 연관규칙의 측도 산업의 특성에 따라 지지도, 신뢰도, 향상도 값을 잘 보고 규칙을 선택 지지도 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율 지지도 = A와 B가 동시에.. 2022. 3. 8.
[Data Science] 군집 분석 군집 분석 각 객체의 유사성이 높은 대상 집단으로 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것 결과는 구체적인 군집분석 방법에 따라 차이가 나타날 수 있음 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도 사용예 마케팅 조사에서 소비자들의 상품구매행동 라이프 스타일에 따른 소비자군을 분류하여 시장 전략 수립등에 활용 거리 군집 분석에서는 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단한다. 연속형 변수 유클리디안 거리 데이터간의 유사성을 측정할 때 많이 사용하는 거리 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀.. 2022. 3. 8.
[Data Science] 인공신경망 분석 인공신경망 분석 인공신경망이란 뇌를 기반으로 한 추론 모델 뉴런이라는 기본적인 정보처리 단위를 기준으로 설계 인간의 뇌는 100억개의 뉴런과 각 뉴런을 연결하는 6조개의 시냅스로 이루어져 있으며 매우 복잡하고, 비선형적이며, 병렬적인 정보 처리 시스템 인공신경망은 뉴런이라는 아주 단순하지만 내부적으로는 매우 복합적으로 연결된 프로세스들로 이루어져 있음 각각의 뉴런은 연결을 통해 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성 역전파 일고리즘 사용 뉴런 입력 링크에서 여러 신호를 받아서 새로운 활성화 수준으로 계산하고, 출력 링크로 출력신호를 보내는 역할 뉴런의 입력신호는 미가공 데이터 또는 다른 뉴런의 출력신호도 될 수 있음 뉴런의 출력신호는 문제의 최종적인 해가 되거나 다른 뉴런에 입력신호로 활.. 2022. 3. 8.
[Data Science] 앙상블 분석 앙상블 분석 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법 다중모델조합, 분류기조합이 있음 훈련을 한 뒤 예측을 하는데 사용하므로 지도학습 학습방법의 불안전성 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우 그 학습방법은 불안정 안정적인 방법 1-nearest neighbor 선형회귀모형 불안정적인 방법 의사결정모형 앙상블 기법의 종류 1. 배깅 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법 배깅은 반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러번 추출될 수 있고, 어떤 데이터는 추출되지 않을 수도 있음 배깅은 가지치기를 하지 않고 최대.. 2022. 3. 8.
[Data Science] 분류 분석 분류 분석 분류 분석, 예측 분석은 레코드의 특정 속성의 값을 미리 알아 맞히는 것을 목적으로 함 분류 분석은 범주형 속성의 값을 알아맞히는 것 예측 분석은 연속형 속성의 값을 알아맞히는 것 데이터가 어떤 그룹에 속하는지 예측하는데 사용 클러스터링과 유사하지만, 분류 분석은 각 그룹이 정의되어 있음 지도 학습에 속함 레코드의 범주형 속성의 값을 알아맞히는 것 분류 예 학생들의 국어, 영어, 수학 점수를 통해 내신등급을 알아맞히는 것 카드회사에서 회원들의 가입정보를 통해 1년후 신용 등급을 알아 맞히는 것 고객들의 속성을 이용해 이탈일자를 예측 분류 모델링 신용 평가 모형 우량, 불량 사기 방비 모형 사기, 정상 이탈 모형 이탈, 유지 예측 분석 시계열 분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 .. 2022. 3. 8.
[Data Science] 데이터 마이닝 데이터 마이닝 대용량의 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 통계분석과의 차이 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출 활용분야 분류 예측 군집화 시각화 방법론 인공지능 의사결정나무 K-평균군집화 연관분석 회귀분석 로짓 (Logit) 분석 최근접이웃법 데이터마이닝 방법 지도학습 비지도학습 지도학습 정답을 알려주고 학습을 진행 1등급, 2등급으로 구분 분류분석 집단을 알려주고 구분하게 함 고양이, 사자, 강아지로 사진을 구분하게 함 회귀분석 독립변수에 따라 종속변수가 어떻게 변화하는지를 예측 강남, 강북 지역의 아파트값 예측 분석방법 의사결정나무 인공신경망 로지스.. 2022. 3. 8.
[Data Science] 주성분 분석 주성분 분석 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로, 선형결합으로 변수를 축약, 축소하는 기법 여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리 주성분분석을 통해 차원을 축소하여 군집분석에서 군집화 결과와 연산 속도 개선 회귀분석에서 다중공선성 최소화 주성분분석 vs 요인분석 요인분석 등간척도로 두 개 이상의 변수들을 잠재되어 있는 공통인자를 찾아내는 기법 공통점 모두 데이터를 축소하는데 활용 몇개의 새로운 변수들로 축소 https://wikidocs.net/48111 3.3.9.주성분 분석 + 여러 변수들의 .. 2022. 3. 8.
[Data Science] 다차원 척도법 다차원 척도법 데이터 속에 잠재해 있는 패턴, 구조를 찾아서 기하학적으로 표현 개체들의 거리 계산은 유클리드 거리행렬을 활용 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값으로 표현 계량적 MDS 데이터가 구간척도나 비율척도인 경우 활용 비계량적 MDS 데이터가 순서척도인 경우 활용, 개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성한 후 적용 https://wikidocs.net/48110 3.3.8.다차원 척도법 ![2](https://t1.daumcdn.net/cfile/tistory/99F4AB505BF557732D) + MDS: Multi Dimensional Scaling ... wikidocs.net 2022. 3. 8.
[Data Science] 시계열 분석 시계열 분석 시계열 분석은 시계열 데이터를 분석하는 것으로 시계열 예측으로도 부른다. 시계열 데이터 (time series)는 관측치가 시간적 순서를 가지는 시간의 흐름에 따른 관측된 데이터다. 일정 시점에 조사된 데이터는 횡단 자료 (cross-sectional)로 분류한다. 대표 횡단 자료로 소비자 물가 지수가 있다. 시계열 자료 시간의 흐름에 따라 관찰된 값들 주식가격 데이터, 실업률, 기후 데이터 등 시계열 데이터의 분석 목적 미래의 값을 예측 특성파악 경향, 주기, 계절성, 불규칙성 등 시계열 자료 종류 비정상성 시계열 자료 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열자료가 이에 해당 정상성 시계열 자료 비정상 시계열을 변환해 다루기 쉬운 시계열 자료로 변환한 자료 정상성 정상.. 2022. 3. 8.
728x90
반응형
LIST