본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 공공포털 데이터 (3)

by goatlab 2022. 9. 21.
728x90
반응형
SMALL

기초 통계값

 

데이터 타입을 알기 위해서 dtypes를 찍어볼 수 있다.

 

df["위도"].dtypes
dtype('float64')

 

평균값

 

df["위도"].mean()
37.54507079641079

 

중앙값

 

df["위도"].median()
37.54087611904785

 

최대값

 

df["위도"].max()
37.6885746552912

 

최소값

 

df["위도"].min()
37.4340982285396

 

갯수

 

df["위도"].count()
14030

 

요약값

 

df["위도"].describe()
count    14030.000000
mean        37.545071
std          0.050096
min         37.434098
25%         37.504652
50%         37.540876
75%         37.573545
max         37.688575
Name: 위도, dtype: float64

 

2개 이상의 열 요약

 

df[["위도", "경도"]].describe()

 

df["위도"] 처럼 1개의 데이터를 출력할 때는 series 데이터 타입이지만 2개 이상은 2차원 데이터 구조가 되므로 DataFrame으로 출력된다. 2개 이상의 데이터를 출력하려면 list 형태로 column을 넣어야 한다.

 

숫자로 된 데이터만 요약 : number

 

df.describe(include="number")

 

문자열 데이터만 요약 : object

 

df.describe(include="object")

 

모든 데이터 요약 : all

 

df.describe(include="all")

728x90
반응형
LIST