728x90 반응형 SMALL 중앙값2 결측치 (Missing Values) / 특이치 (Outliers) 결측치 (Missing Values) 결측치는 기계 학습의 현실이다. 모든 데이터 행에는 모든 열에 대한 값이 있는 것이 이상적이다. 하지만, 이것은 거의 그렇지 않다. 일반적인 방법은 결측값을 해당 열의 중앙값으로 바꾸는 것이다. 이 프로그램은 중앙값 (median)을 계산한다. csv 파일을 다운받는다. import os import pandas as pd df = pd.read_csv('auto-mpg.csv', na_values = ['NA', '?']) print(f"horsepower has na? {pd.isnull(df['horsepower']).values.any()}") print("Filling missing values ...") med = df['horsepower'].median.. 2023. 5. 1. [Data Science] 공공포털 데이터 (3) 기초 통계값 데이터 타입을 알기 위해서 dtypes를 찍어볼 수 있다. df["위도"].dtypes dtype('float64') 평균값 df["위도"].mean() 37.54507079641079 중앙값 df["위도"].median() 37.54087611904785 최대값 df["위도"].max() 37.6885746552912 최소값 df["위도"].min() 37.4340982285396 갯수 df["위도"].count() 14030 요약값 df["위도"].describe() count 14030.000000 mean 37.545071 std 0.050096 min 37.434098 25% 37.504652 50% 37.540876 75% 37.573545 max 37.688575 Name: 위도.. 2022. 9. 21. 이전 1 다음 728x90 반응형 LIST