[Data Science] 공공포털 데이터 (4)
중복값 제거 df.describe(include="object")로 문자열 데이터를 요약하여 보면 unique라는 수치가 나온다. unique는 값의 종류가 몇 개인지를 보여 준다. df["상권업종대분류명"].unique() array(['소매', '학문/교육', '음식', '부동산', '생활서비스', '관광/여가/오락', '숙박', '스포츠'], dtype=object) df["상권업종대분류명"].nunique() 8 df["상권업종중분류명"].unique() array(['건강/미용식품', '취미/오락관련소매', '시계/귀금속소매', '학원-보습교습입시', '한식', '유흥주점', '학원-창업취업취미', '자동차/자동차용품', '부동산중개', '사진/광학/정밀기기소매', '도서관/독서실', '커피점/..
2022. 9. 21.
[Data Science] Pandas Cheat Sheet (1)
Pandas Cheat Sheet 엑셀로 힘든 대용량의 데이터는 판다스를 활용하여 분석할 수 있다. DataFrame import pandas as pd df = pd.DataFrame({"a" : [4, 5, 6], "b" : [7, 8, 9], "c" : [10, 11, 12]}, index = [1, 2, 3]) df Series df["a"]라고 컬럼을 출력하게 되면 a 컬럼에 있는 4,5,6의 값이 출력이 되는데 이것을 Series 데이터라고 부른다. df["a"] 하지만 대괄호를 하나 더 쓰게 된다면 DataFrame 형태로 출력되는 것을 볼 수 있다. df[["a"]] 결과를 보면 DataFrame은 2차원의 구조를 가지고 있고, Series는 1차원의 구조를 가지고 있는 것을 알 수 있다...
2022. 9. 18.