본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 공공포털 데이터 (4)

by goatlab 2022. 9. 21.
728x90
반응형
SMALL

중복값 제거

 

df.describe(include="object")로 문자열 데이터를 요약하여 보면 unique라는 수치가 나온다. unique는 값의 종류가 몇 개인지를 보여 준다.

 

df["상권업종대분류명"].unique()
array(['소매', '학문/교육', '음식', '부동산', '생활서비스', '관광/여가/오락', '숙박', '스포츠'],
      dtype=object)
df["상권업종대분류명"].nunique()
8
df["상권업종중분류명"].unique()
array(['건강/미용식품', '취미/오락관련소매', '시계/귀금속소매', '학원-보습교습입시', '한식', '유흥주점',
       '학원-창업취업취미', '자동차/자동차용품', '부동산중개', '사진/광학/정밀기기소매', '도서관/독서실',
       '커피점/카페', '대중목욕탕/휴게', '주유소/충전소', '패스트푸드', '닭/오리요리', '자동차/이륜차',
       '선물/팬시/기념품', '이/미용/건강', '사무/문구/컴퓨터', '중식', 'PC/오락/당구/볼링등',
       '음/식료품소매', '종합소매점', '세탁/가사서비스', '기타서비스업', '의복의류', '가방/신발/액세서리',
       '양식', '제과제빵떡케익', '무도/유흥/가무', '가정/주방/인테리어', '운동/경기용품소매', '개인서비스',
       '학원-예능취미체육', '학원기타', '가전제품소매', '유아교육', '물품기기대여', '학문교육기타', '기타판매업',
       '사진', '분식', '화장품소매', '애견/애완/동물', '학원-음악미술무용', '대행업',
       '철물/난방/건설자재소매', '별식/퓨전요리', '주택수리', '연극/영화/극장', '모텔/여관/여인숙',
       '호텔/콘도', '의약/의료품소매', '실외운동시설', '학원-어학', '기타음식업', '광고/인쇄',
       '예식/의례/관혼상제', '실내운동시설', '일식/수산물', '책/서적/도서', '가구소매', '운송/배달/택배',
       '요가/단전/마사지', '개인/가정용품수리', '인력/고용/용역알선', '평가/개발/관리', '법무세무회계',
       '운영관리시설', '부페', '중고품소매/교환', '장례/묘지', '유아용품', '분양', '예술품/골동품/수석/분재',
       '페인트/유리제품소매', '행사/이벤트', '스포츠/운동', '음식배달서비스', '놀이/여가/취미', '종교용품판매',
       '민박/하숙', '경마/경륜/성인오락', '학원-자격/국가고시', '학원-컴퓨터', '캠프/별장/펜션'],
      dtype=object)
df["상권업종중분류명"].nunique()
87
df["상권업종소분류명"].unique()
df["상권업종소분류명"].nunique()

# 또는
len(df["상권업종소분류명"].unique())

 

그룹화된 요약값

 

value_counts는 각 value가 몇 개인지를 세어 준다.

 

df["시도명"].value_counts()

 

normalize 옵션을 넣으면 전체에서 차지하는 비율을 계산해 준다.

 

df["시도명"].value_counts(normalize=True)

city_normalize = df["시도명"].value_counts(normalize=True)
city_normalize.plot.barh()

city_normalize.plot.pie(figsize=(7, 7))

728x90
반응형
LIST