728x90 반응형 SMALL normalize2 [Data Science] 공공포털 데이터 (5) seaborn : 그래프 그리기 seaborn은 대체로 x, y의 data를 기본으로 넣어줘야 하지만 countplot은 x,y 중 하나만 넣어도 된다. sns.countplot(data=df, y="시도명") 데이터 가공 상권업종대분류명의 데이터 값 당 개수를 센다. df["상권업종대분류명"].value_counts() 상권업종중분류명의 데이터 값 당 개수를 센다. 이 데이터를 c라는 변수로 지정한다. c = df["상권업종중분류명"].value_counts() c.plot.bar(rot=0) c = df["상권업종소분류명"].value_counts() c.plot.bar() c.plot.bar(figsize=(7,8), grid=True) normalize는 전체 대비 비율을 보여 준다. 이 데이터를.. 2022. 9. 21. [Data Science] 공공포털 데이터 (4) 중복값 제거 df.describe(include="object")로 문자열 데이터를 요약하여 보면 unique라는 수치가 나온다. unique는 값의 종류가 몇 개인지를 보여 준다. df["상권업종대분류명"].unique() array(['소매', '학문/교육', '음식', '부동산', '생활서비스', '관광/여가/오락', '숙박', '스포츠'], dtype=object) df["상권업종대분류명"].nunique() 8 df["상권업종중분류명"].unique() array(['건강/미용식품', '취미/오락관련소매', '시계/귀금속소매', '학원-보습교습입시', '한식', '유흥주점', '학원-창업취업취미', '자동차/자동차용품', '부동산중개', '사진/광학/정밀기기소매', '도서관/독서실', '커피점/.. 2022. 9. 21. 이전 1 다음 728x90 반응형 LIST