728x90 반응형 SMALL 결측치 보간2 [Data Science] 이상치 처리 이상치 (Outlier) 극단적으로 값이 크거나 작은 값을 말한다. 데이터 오기입 혹은 특이 현상을 칭한다. 당뇨병 데이터셋 ➢ Pregnancies : 임신 횟수 ➢ Glucose : 포도당 부하 검사 수치 ➢ BloodPressure : 혈압 ➢ SkinThinkness : 삼두근 피부 두께 ➢ Insulin : 인슐린 수치 ➢ BMI : BMI 수치 ➢ DiabetesPedigreeFunction : 당뇨병 가족력 ➢ Age : 나이 ➢ Outcome : 당뇨병 여부 import numpy as np import pandas as pd df = pd.read_csv('Diabetes_Database.csv') for key in ["Glucose","BloodPressure","SkinThickne.. 2022. 9. 26. [Data Science] 결측치 처리 (1) 결측치 (Missing Data) 다른 항목 측정 시 측정되지 않거나, 네트워크 문제로 인해 누락된 값을 말한다. 데이터마다 측정되는 항목 또한 상이하다. 결측치 처리 삭제 특정 행의 데이터를 삭제하거나 결측치가 많은 특징을 삭제한다. 보간 평균값, 최빈값, 중간값 보간 시 훈련 데이터 (training data)를 기준으로 계산하여 검증 데이터 (validation data)나 테스트 데이터 (test data)에 적용 당뇨병 데이터 전처리 import numpy as np import pandas as pd df = pd.read_csv('Diabetes_Database.csv') df.head() 결측치 확인 print(df.isnull().sum()) Pregnancies 0 Glucose 0 B.. 2022. 9. 24. 이전 1 다음 728x90 반응형 LIST