본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 공공포털 데이터 (1)

by goatlab 2022. 9. 18.
728x90
반응형
SMALL

공공데이터 포털

 

https://www.data.go.kr/data/15083033/fileData.do

 

공공 데이터 포털에는 다양한 분야의 데이터가 존재한다. 소상공인시장진흥공단에서 상권 정보 데이터를 csv, api 형태로 제공하고 있다. 소상공인시장진흥공단_상가(상권)정보.zip 파일을 다운로드한다.

 

필요한 라이브러리

 

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
  • numpy : 고성능의 수치계산, 행렬이나 대규모 다차원 배열을 쉽게 처리하기 위한 라이브러리
  • seaborn : 데이터 시각화를 위한 라이브러리
  • matplotlib : 데이터 시각화 라이브러리

 

시각화를 위한 폰트 설정

 

# 한글 폰트 설정 (주석 처리 단축키)
Ctrl(cmd) + /

 

알맞은 OS에 따라 plt.rc 소스를 실행한다. 해당하지 않는 OS의 소스는 주석 처리를 해준다.

 

# window 한글 폰트 설정
plt.rc('font', family = 'Malgun Gothic')

# mac 한글 폰트 설정
plt.rc('font', family = 'AppleGothic')

# minus 폰트 깨짐 방지
plt.rc('axes', unicode_minus=False)

 

한글 폰트를 사용하면 minus font가 깨지는 경우가 있어서 unicode_minus를 False로 설정한다.

 

# retina 설정
from IPython.display import set_matplotlib_formats

set_matplotlib_formats('retina')

 

글씨를 선명하게 보기 위해 retina 설정한다.

 

데이터 로드

 

df = pd.read_csv("소상공인시장진흥공단_상가(상권)정보.csv", low_memory = False)

 

데이터 미리 보기

 

df.head()

df.tail()

 

데이터 요약하기

 

df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132673 entries, 0 to 132672
Data columns (total 39 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   상가업소번호     132673 non-null  int64  
 1   상호명        132673 non-null  object 
 2   지점명        27166 non-null   object 
 3   상권업종대분류코드  132673 non-null  object 
 4   상권업종대분류명   132673 non-null  object 
 5   상권업종중분류코드  132673 non-null  object 
 6   상권업종중분류명   132673 non-null  object 
 7   상권업종소분류코드  132673 non-null  object 
 8   상권업종소분류명   132673 non-null  object 
 9   표준산업분류코드   125494 non-null  object 
 10  표준산업분류명    125494 non-null  object 
 11  시도코드       132673 non-null  int64  
 12  시도명        132673 non-null  object 
 13  시군구코드      132673 non-null  int64  
 14  시군구명       132673 non-null  object 
 15  행정동코드      132673 non-null  int64  
 16  행정동명       132673 non-null  object 
 17  법정동코드      132673 non-null  int64  
 18  법정동명       132673 non-null  object 
 19  지번코드       132673 non-null  int64  
 20  대지구분코드     132673 non-null  int64  
 21  대지구분명      132673 non-null  object 
 22  지번본번지      132673 non-null  int64  
 23  지번부번지      106040 non-null  float64
 24  지번주소       132672 non-null  object 
 25  도로명코드      132672 non-null  float64
 26  도로명        132672 non-null  object 
 27  건물본번지      132672 non-null  float64
 28  건물부번지      16666 non-null   float64
 29  건물관리번호     132672 non-null  object 
 30  건물명        63654 non-null   object 
 31  도로명주소      132672 non-null  object 
 32  구우편번호      132672 non-null  float64
 33  신우편번호      132655 non-null  float64
 34  동정보        9838 non-null    object 
 35  층정보        80442 non-null   object 
 36  호정보        0 non-null       float64
 37  경도         132672 non-null  float64
 38  위도         132672 non-null  float64
dtypes: float64(9), int64(8), object(22)
memory usage: 39.5+ MB
df.columns
Index(['상가업소번호', '상호명', '지점명', '상권업종대분류코드', '상권업종대분류명', '상권업종중분류코드',
       '상권업종중분류명', '상권업종소분류코드', '상권업종소분류명', '표준산업분류코드', '표준산업분류명', '시도코드',
       '시도명', '시군구코드', '시군구명', '행정동코드', '행정동명', '법정동코드', '법정동명', '지번코드',
       '대지구분코드', '대지구분명', '지번본번지', '지번부번지', '지번주소', '도로명코드', '도로명', '건물본번지',
       '건물부번지', '건물관리번호', '건물명', '도로명주소', '구우편번호', '신우편번호', '동정보', '층정보',
       '호정보', '경도', '위도'],
      dtype='object')
df.dtypes
상가업소번호         int64
상호명           object
지점명           object
상권업종대분류코드     object
상권업종대분류명      object
상권업종중분류코드     object
상권업종중분류명      object
상권업종소분류코드     object
상권업종소분류명      object
표준산업분류코드      object
표준산업분류명       object
시도코드           int64
시도명           object
시군구코드          int64
시군구명          object
행정동코드          int64
행정동명          object
법정동코드          int64
법정동명          object
지번코드           int64
대지구분코드         int64
대지구분명         object
지번본번지          int64
지번부번지        float64
지번주소          object
도로명코드        float64
도로명           object
건물본번지        float64
건물부번지        float64
건물관리번호        object
건물명           object
도로명주소         object
구우편번호        float64
신우편번호        float64
동정보           object
층정보           object
호정보          float64
경도           float64
위도           float64
dtype: object
728x90
반응형
LIST