728x90
반응형
SMALL
공공데이터 포털
공공 데이터 포털에는 다양한 분야의 데이터가 존재한다. 소상공인시장진흥공단에서 상권 정보 데이터를 csv, api 형태로 제공하고 있다. 소상공인시장진흥공단_상가(상권)정보.zip 파일을 다운로드한다.
필요한 라이브러리
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
|
시각화를 위한 폰트 설정
# 한글 폰트 설정 (주석 처리 단축키)
Ctrl(cmd) + /
알맞은 OS에 따라 plt.rc 소스를 실행한다. 해당하지 않는 OS의 소스는 주석 처리를 해준다.
# window 한글 폰트 설정
plt.rc('font', family = 'Malgun Gothic')
# mac 한글 폰트 설정
plt.rc('font', family = 'AppleGothic')
# minus 폰트 깨짐 방지
plt.rc('axes', unicode_minus=False)
한글 폰트를 사용하면 minus font가 깨지는 경우가 있어서 unicode_minus를 False로 설정한다.
# retina 설정
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('retina')
글씨를 선명하게 보기 위해 retina 설정한다.
데이터 로드
df = pd.read_csv("소상공인시장진흥공단_상가(상권)정보.csv", low_memory = False)
데이터 미리 보기
df.head()
df.tail()
데이터 요약하기
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 132673 entries, 0 to 132672
Data columns (total 39 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 상가업소번호 132673 non-null int64
1 상호명 132673 non-null object
2 지점명 27166 non-null object
3 상권업종대분류코드 132673 non-null object
4 상권업종대분류명 132673 non-null object
5 상권업종중분류코드 132673 non-null object
6 상권업종중분류명 132673 non-null object
7 상권업종소분류코드 132673 non-null object
8 상권업종소분류명 132673 non-null object
9 표준산업분류코드 125494 non-null object
10 표준산업분류명 125494 non-null object
11 시도코드 132673 non-null int64
12 시도명 132673 non-null object
13 시군구코드 132673 non-null int64
14 시군구명 132673 non-null object
15 행정동코드 132673 non-null int64
16 행정동명 132673 non-null object
17 법정동코드 132673 non-null int64
18 법정동명 132673 non-null object
19 지번코드 132673 non-null int64
20 대지구분코드 132673 non-null int64
21 대지구분명 132673 non-null object
22 지번본번지 132673 non-null int64
23 지번부번지 106040 non-null float64
24 지번주소 132672 non-null object
25 도로명코드 132672 non-null float64
26 도로명 132672 non-null object
27 건물본번지 132672 non-null float64
28 건물부번지 16666 non-null float64
29 건물관리번호 132672 non-null object
30 건물명 63654 non-null object
31 도로명주소 132672 non-null object
32 구우편번호 132672 non-null float64
33 신우편번호 132655 non-null float64
34 동정보 9838 non-null object
35 층정보 80442 non-null object
36 호정보 0 non-null float64
37 경도 132672 non-null float64
38 위도 132672 non-null float64
dtypes: float64(9), int64(8), object(22)
memory usage: 39.5+ MB
df.columns
Index(['상가업소번호', '상호명', '지점명', '상권업종대분류코드', '상권업종대분류명', '상권업종중분류코드',
'상권업종중분류명', '상권업종소분류코드', '상권업종소분류명', '표준산업분류코드', '표준산업분류명', '시도코드',
'시도명', '시군구코드', '시군구명', '행정동코드', '행정동명', '법정동코드', '법정동명', '지번코드',
'대지구분코드', '대지구분명', '지번본번지', '지번부번지', '지번주소', '도로명코드', '도로명', '건물본번지',
'건물부번지', '건물관리번호', '건물명', '도로명주소', '구우편번호', '신우편번호', '동정보', '층정보',
'호정보', '경도', '위도'],
dtype='object')
df.dtypes
상가업소번호 int64
상호명 object
지점명 object
상권업종대분류코드 object
상권업종대분류명 object
상권업종중분류코드 object
상권업종중분류명 object
상권업종소분류코드 object
상권업종소분류명 object
표준산업분류코드 object
표준산업분류명 object
시도코드 int64
시도명 object
시군구코드 int64
시군구명 object
행정동코드 int64
행정동명 object
법정동코드 int64
법정동명 object
지번코드 int64
대지구분코드 int64
대지구분명 object
지번본번지 int64
지번부번지 float64
지번주소 object
도로명코드 float64
도로명 object
건물본번지 float64
건물부번지 float64
건물관리번호 object
건물명 object
도로명주소 object
구우편번호 float64
신우편번호 float64
동정보 object
층정보 object
호정보 float64
경도 float64
위도 float64
dtype: object
728x90
반응형
LIST
'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글
[Data Science] 공공포털 데이터 (3) (0) | 2022.09.21 |
---|---|
[Data Science] 공공포털 데이터 (2) (0) | 2022.09.19 |
[Data Science] Pandas Cheat Sheet (2) (0) | 2022.09.18 |
[Data Science] Pandas Cheat Sheet (1) (0) | 2022.09.18 |
[Data Science] EDA (Exploratory Data Analysis) (0) | 2022.08.26 |