본문 바로가기
728x90
반응형
SMALL

Data-driven Methodology98

[Data Science] Pandas Cheat Sheet (2) Group Data # "a" 컬럼값을 Groupby하여 "b"의 컬럼값 평균값 구하기 df.groupby(["a"])["b"].mean() # pivot_table로 평균값 구하기 pd.pivot_table(df, index="a") "a" 컬럼에 있는 값이 4가 두 개가 있기 때문에 그 값의 평균값이 적용된다. Plotting 데이터를 가지고 다양한 시각화할 수 있다. # 꺾은선 그래프 그리기 df.plot() # 막대그래프 그리기 df.plot.bar() # 밀도함수 그리기 df.plot.density() 2022. 9. 18.
[Data Science] Pandas Cheat Sheet (1) Pandas Cheat Sheet 엑셀로 힘든 대용량의 데이터는 판다스를 활용하여 분석할 수 있다. DataFrame import pandas as pd df = pd.DataFrame({"a" : [4, 5, 6], "b" : [7, 8, 9], "c" : [10, 11, 12]}, index = [1, 2, 3]) df Series df["a"]라고 컬럼을 출력하게 되면 a 컬럼에 있는 4,5,6의 값이 출력이 되는데 이것을 Series 데이터라고 부른다. df["a"] 하지만 대괄호를 하나 더 쓰게 된다면 DataFrame 형태로 출력되는 것을 볼 수 있다. df[["a"]] 결과를 보면 DataFrame은 2차원의 구조를 가지고 있고, Series는 1차원의 구조를 가지고 있는 것을 알 수 있다... 2022. 9. 18.
[Data Science] EDA (Exploratory Data Analysis) EDA (Exploratory Data Analysis) 탐색적 자료 분석 (Exploratory data analysis)은 존 튜키라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론이다. 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러 가지 탐색적 자료 분석 방법을 개발하였다. 대표적인 예로 박스플롯을 들 수 있다. 탐색적 자료 분석을 통하여 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있다. 이것은 데이터 분석에 있어서 매우 중요한, 초기 분석의 단계이자 해야하는 일이다. 데이터에 대한 일종의 견적을 내는 일이라고 비유.. 2022. 8. 26.
캐글 (Kaggle) 캐글 (Kaggle) 캐글 (Kaggle)은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 2017년 3월 구글에 인수되었다. Add data GPU 설정 https://ko.wikipedia.org/wiki/%EC%BA%90%EA%B8%80 캐글 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. ko.wikipedia.org 2022. 8. 13.
Extract / Transform / Load (ETL) Extract / Transform / Load (ETL) 여러 파일 형식에서 데이터를 추출하고, API 및 웹 스크래핑을 통해 데이터를 수집하고, 마지막으로 수집된 데이터를 로드할 수 있는 형식으로 변환하는 등의 특정 작업을 수행한다. 그런 다음 동료가 작업을 검토하고 평가할 수 있도록 Python 노트북과 스크린샷을 제출한다. 추출 (Extract) import glob list_csv=glob.glob('*.csv') list_json=glob.glob('*.json') # extract csv def extract_from_csv(file_to_process): dataframe = pd.read_csv(file_to_process) return dataframe df = extract_from_.. 2022. 5. 11.
데이터 공학 (Data Engineering) 데이터 공학 (Data Engineering) 데이터 공학은 대규모 데이터 수집, 저장 및 분석을 위한 시스템을 설계하고 구축하는 작업이다. 거의 모든 산업에 응용 프로그램이 있는 광범위한 분야이다. 조직은 방대한 양의 데이터를 수집할 수 있는 능력을 갖추고 있으며, 데이터 과학자와 분석가에게 전달될 때까지 데이터의 가용성이 높은 상태를 유지할 수 있는 적절한 인력과 기술이 필요하다. 데이터 과학자의 삶을 더 쉽게 만들 수 있을 뿐만 아니라, 데이터 엔지니어로 일하는 것은 세계에서 실질적인 변화를 가져올 수 있는 기회를 제공할 수 있다. 머신러닝과 딥러닝과 같은 분야는 데이터 엔지니어가 해당 데이터를 처리하고 채널링하지 않으면 성공할 수 없다. 데이터 엔지니어는 다양한 환경에서 작업하여 원시 데이터를 수.. 2022. 5. 11.
[Data Science] 연관분석 연관규칙분석 연관성 분석은 흔히 장바구니 분석 또는 서열 분석이라고도 함 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용 장바구니 분석 장바구니에 무엇이 같이 들어 있는지에 대한 분석 서열 분석 A를 산 다음에 B를 산다. 상품 배치 연관규칙의 형태 조건과 반응의 형태 (if-then)로 이루어짐 if A then B 만일 A가 일어나면 B가 일어난다. 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다. 샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다. 연관규칙의 측도 산업의 특성에 따라 지지도, 신뢰도, 향상도 값을 잘 보고 규칙을 선택 지지도 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율 지지도 = A와 B가 동시에.. 2022. 3. 8.
[Data Science] 군집 분석 군집 분석 각 객체의 유사성이 높은 대상 집단으로 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것 결과는 구체적인 군집분석 방법에 따라 차이가 나타날 수 있음 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도 사용예 마케팅 조사에서 소비자들의 상품구매행동 라이프 스타일에 따른 소비자군을 분류하여 시장 전략 수립등에 활용 거리 군집 분석에서는 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단한다. 연속형 변수 유클리디안 거리 데이터간의 유사성을 측정할 때 많이 사용하는 거리 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀.. 2022. 3. 8.
[Data Science] 인공신경망 분석 인공신경망 분석 인공신경망이란 뇌를 기반으로 한 추론 모델 뉴런이라는 기본적인 정보처리 단위를 기준으로 설계 인간의 뇌는 100억개의 뉴런과 각 뉴런을 연결하는 6조개의 시냅스로 이루어져 있으며 매우 복잡하고, 비선형적이며, 병렬적인 정보 처리 시스템 인공신경망은 뉴런이라는 아주 단순하지만 내부적으로는 매우 복합적으로 연결된 프로세스들로 이루어져 있음 각각의 뉴런은 연결을 통해 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성 역전파 일고리즘 사용 뉴런 입력 링크에서 여러 신호를 받아서 새로운 활성화 수준으로 계산하고, 출력 링크로 출력신호를 보내는 역할 뉴런의 입력신호는 미가공 데이터 또는 다른 뉴런의 출력신호도 될 수 있음 뉴런의 출력신호는 문제의 최종적인 해가 되거나 다른 뉴런에 입력신호로 활.. 2022. 3. 8.
[Data Science] 앙상블 분석 앙상블 분석 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법 다중모델조합, 분류기조합이 있음 훈련을 한 뒤 예측을 하는데 사용하므로 지도학습 학습방법의 불안전성 학습자료의 작은 변화에 의해 예측모형이 크게 변하는 경우 그 학습방법은 불안정 안정적인 방법 1-nearest neighbor 선형회귀모형 불안정적인 방법 의사결정모형 앙상블 기법의 종류 1. 배깅 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법 배깅은 반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러번 추출될 수 있고, 어떤 데이터는 추출되지 않을 수도 있음 배깅은 가지치기를 하지 않고 최대.. 2022. 3. 8.
728x90
반응형
LIST