728x90
반응형
SMALL
기초 통계값
데이터 타입을 알기 위해서 dtypes를 찍어볼 수 있다.
df["위도"].dtypes
dtype('float64')
평균값
df["위도"].mean()
37.54507079641079
중앙값
df["위도"].median()
37.54087611904785
최대값
df["위도"].max()
37.6885746552912
최소값
df["위도"].min()
37.4340982285396
갯수
df["위도"].count()
14030
요약값
df["위도"].describe()
count 14030.000000
mean 37.545071
std 0.050096
min 37.434098
25% 37.504652
50% 37.540876
75% 37.573545
max 37.688575
Name: 위도, dtype: float64
2개 이상의 열 요약
df[["위도", "경도"]].describe()
df["위도"] 처럼 1개의 데이터를 출력할 때는 series 데이터 타입이지만 2개 이상은 2차원 데이터 구조가 되므로 DataFrame으로 출력된다. 2개 이상의 데이터를 출력하려면 list 형태로 column을 넣어야 한다.
숫자로 된 데이터만 요약 : number
df.describe(include="number")
문자열 데이터만 요약 : object
df.describe(include="object")
모든 데이터 요약 : all
df.describe(include="all")
728x90
반응형
LIST
'Data-driven Methodology > DS (Data Science)' 카테고리의 다른 글
[Data Science] 공공포털 데이터 (5) (0) | 2022.09.21 |
---|---|
[Data Science] 공공포털 데이터 (4) (0) | 2022.09.21 |
[Data Science] 공공포털 데이터 (2) (0) | 2022.09.19 |
[Data Science] 공공포털 데이터 (1) (0) | 2022.09.18 |
[Data Science] Pandas Cheat Sheet (2) (0) | 2022.09.18 |