본문 바로가기

728x90

SMALL

Data-driven Methodology/DS (Data Science)58

[Data Science] 공공포털 데이터 (7) 텍스트 데이터 전처리 df_seoul_drug["시군구명"] value_counts()를 하고, 데이터를 c라는 변수에 지정한다. c = df_seoul_drug["시군구명"].value_counts() c.head() 데이터 시각화 c.plot.bar(rot=60) normalize한 데이터도 n이라는 변수에 지정한다. n = df_seoul_drug["시군구명"].value_counts(normalize=True) n.head() 조건을 넣어 서울시의 종합병원만 분석한다. df_seoul_hospital = df[df["상권업종소분류명"] == "종합병원" & (df["시도명"] == "서울특별시")].copy() df_seoul_hospital 시군구명을 불러 온다. df_seoul_hospital.. 2022. 9. 22.

[Data Science] 공공포털 데이터 (6) 원하는 데이터 추출 df["상권업종중분류명"] == "약국/한약방" 0 False 1 False 2 False 3 False 4 False ... 20053 False 20054 False 20055 False 20056 False 20057 False Name: 상권업종중분류명, Length: 20058, dtype: bool df[df["상권업종중분류명"] == "약국/한약방"] # copy를 통해 df_medical이라는 변수에 지정 df_medical = df[df["상권업종중분류명"] == "약국/한약방"].copy() 원하는 데이터 추출 : 여러개 조건 사용 # 1개 조건 df[df["상권업종대분류명"] == "의료"]] 상권업종대분류명이 의료인 데이터의 상권업종중분류명을 가져오고 싶을 때 l.. 2022. 9. 22.

[Data Science] 공공포털 데이터 (5) seaborn : 그래프 그리기 seaborn은 대체로 x, y의 data를 기본으로 넣어줘야 하지만 countplot은 x,y 중 하나만 넣어도 된다. sns.countplot(data=df, y="시도명") 데이터 가공 상권업종대분류명의 데이터 값 당 개수를 센다. df["상권업종대분류명"].value_counts() 상권업종중분류명의 데이터 값 당 개수를 센다. 이 데이터를 c라는 변수로 지정한다. c = df["상권업종중분류명"].value_counts() c.plot.bar(rot=0) c = df["상권업종소분류명"].value_counts() c.plot.bar() c.plot.bar(figsize=(7,8), grid=True) normalize는 전체 대비 비율을 보여 준다. 이 데이터를.. 2022. 9. 21.

[Data Science] 공공포털 데이터 (4) 중복값 제거 df.describe(include="object")로 문자열 데이터를 요약하여 보면 unique라는 수치가 나온다. unique는 값의 종류가 몇 개인지를 보여 준다. df["상권업종대분류명"].unique() array(['소매', '학문/교육', '음식', '부동산', '생활서비스', '관광/여가/오락', '숙박', '스포츠'], dtype=object) df["상권업종대분류명"].nunique() 8 df["상권업종중분류명"].unique() array(['건강/미용식품', '취미/오락관련소매', '시계/귀금속소매', '학원-보습교습입시', '한식', '유흥주점', '학원-창업취업취미', '자동차/자동차용품', '부동산중개', '사진/광학/정밀기기소매', '도서관/독서실', '커피점/.. 2022. 9. 21.

[Data Science] 공공포털 데이터 (3) 기초 통계값 데이터 타입을 알기 위해서 dtypes를 찍어볼 수 있다. df["위도"].dtypes dtype('float64') 평균값 df["위도"].mean() 37.54507079641079 중앙값 df["위도"].median() 37.54087611904785 최대값 df["위도"].max() 37.6885746552912 최소값 df["위도"].min() 37.4340982285396 갯수 df["위도"].count() 14030 요약값 df["위도"].describe() count 14030.000000 mean 37.545071 std 0.050096 min 37.434098 25% 37.504652 50% 37.540876 75% 37.573545 max 37.688575 Name: 위도.. 2022. 9. 21.

[Data Science] 공공포털 데이터 (2) 결측치 결측치 (Missing Value)는 말 그대로 데이터에 값이 없는 것을 뜻한다. 줄여서 'NA'라고 표현하기도 하고, 다른 언어에서는 Null 이란 표현을 많이 쓴다. 결측치는 데이터를 분석하는데에 있어서 매우 방해가 되는 존재이다. 결측치의 특성이 '무작위로 손실' 되지 않았다면, 대부분의 경우 가장 좋은 방법은 제거하는 것이다. 제거하는 방식은 목록 삭제 (Listwist) 단일값 삭제 (Pairwise) 방식으로 다시 구분된다. pandas에서 제공하는 Na/NaN과 같은 누락 데이터를 제거하는 함수가 있다. df.isnull() null_count = df.isnull().sum() 상가업소번호 0 상호명 0 지점명 105507 상권업종대분류코드 0 상권업종대분류명 0 상권업종중분류코드 .. 2022. 9. 19.

[Data Science] 공공포털 데이터 (1) 공공데이터 포털 공공 데이터 포털에는 다양한 분야의 데이터가 존재한다. 소상공인시장진흥공단에서 상권 정보 데이터를 csv, api 형태로 제공하고 있다. 소상공인시장진흥공단_상가(상권)정보.zip 파일을 다운로드한다. 필요한 라이브러리 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt numpy : 고성능의 수치계산, 행렬이나 대규모 다차원 배열을 쉽게 처리하기 위한 라이브러리 seaborn : 데이터 시각화를 위한 라이브러리 matplotlib : 데이터 시각화 라이브러리 시각화를 위한 폰트 설정 # 한글 폰트 설정 (주석 처리 단축키) .. 2022. 9. 18.

[Data Science] Pandas Cheat Sheet (2) Group Data # "a" 컬럼값을 Groupby하여 "b"의 컬럼값 평균값 구하기 df.groupby(["a"])["b"].mean() # pivot_table로 평균값 구하기 pd.pivot_table(df, index="a") "a" 컬럼에 있는 값이 4가 두 개가 있기 때문에 그 값의 평균값이 적용된다. Plotting 데이터를 가지고 다양한 시각화할 수 있다. # 꺾은선 그래프 그리기 df.plot() # 막대그래프 그리기 df.plot.bar() # 밀도함수 그리기 df.plot.density() 2022. 9. 18.

[Data Science] Pandas Cheat Sheet (1) Pandas Cheat Sheet 엑셀로 힘든 대용량의 데이터는 판다스를 활용하여 분석할 수 있다. DataFrame import pandas as pd df = pd.DataFrame({"a" : [4, 5, 6], "b" : [7, 8, 9], "c" : [10, 11, 12]}, index = [1, 2, 3]) df Series df["a"]라고 컬럼을 출력하게 되면 a 컬럼에 있는 4,5,6의 값이 출력이 되는데 이것을 Series 데이터라고 부른다. df["a"] 하지만 대괄호를 하나 더 쓰게 된다면 DataFrame 형태로 출력되는 것을 볼 수 있다. df[["a"]] 결과를 보면 DataFrame은 2차원의 구조를 가지고 있고, Series는 1차원의 구조를 가지고 있는 것을 알 수 있다... 2022. 9. 18.

[Data Science] EDA (Exploratory Data Analysis) EDA (Exploratory Data Analysis) 탐색적 자료 분석 (Exploratory data analysis)은 존 튜키라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론이다. 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러 가지 탐색적 자료 분석 방법을 개발하였다. 대표적인 예로 박스플롯을 들 수 있다. 탐색적 자료 분석을 통하여 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있다. 이것은 데이터 분석에 있어서 매우 중요한, 초기 분석의 단계이자 해야하는 일이다. 데이터에 대한 일종의 견적을 내는 일이라고 비유.. 2022. 8. 26.

이전 1 2 3 4 5 6 다음

728x90

LIST

티스토리툴바