본문 바로가기
728x90
반응형
SMALL

삭제3

[Data Science] 결측치 처리 (1) 결측치 (Missing Data) 다른 항목 측정 시 측정되지 않거나, 네트워크 문제로 인해 누락된 값을 말한다. 데이터마다 측정되는 항목 또한 상이하다. 결측치 처리 삭제 특정 행의 데이터를 삭제하거나 결측치가 많은 특징을 삭제한다. 보간 평균값, 최빈값, 중간값 보간 시 훈련 데이터 (training data)를 기준으로 계산하여 검증 데이터 (validation data)나 테스트 데이터 (test data)에 적용 당뇨병 데이터 전처리 import numpy as np import pandas as pd df = pd.read_csv('Diabetes_Database.csv') df.head() 결측치 확인 print(df.isnull().sum()) Pregnancies 0 Glucose 0 B.. 2022. 9. 24.
[Pandas] 데이터프레임 (DataFrame) 데이터프레임 (DataFrame) 시리즈가 1차원 벡터 데이터에 행방향 인덱스 (row index)를 붙인 것이라면 데이터프레임 DataFrame 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다. 2차원이므로 각각의 행 데이터의 이름이 되는 행 인덱스 (row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열 인덱스 (column index)도 붙일 수 있다. 데이터프레임 생성 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다. 이 각각의 열에 대한 이름 (라벨)을 키로 가지는 딕셔너리를 만든다. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 columns 인수로, 행방향 인덱스는 index 인수로 지정한다. data = { "2015":.. 2022. 2. 15.
[Pandas] 시리즈 (Series) (2) 시리즈와 딕셔너리 자료형 시리즈 객체는 label 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키 (key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있다. 따라서 딕셔너리 자료형에서 제공하는 in 연산도 가능하고 items 메서드를 사용하면 for 루프를 통해 각 원소의 키 (key)와 값 (value)을 접근할 수도 있다. "서울" in s # 인덱스 라벨 중에 서울이 있는가 --> True "대전" in s # 인덱스 라벨 중에 대전이 있는가 --> False for k, v in s.items(): print("%s = %d" % (k, v)) --- 서울 = 9904312 부산 = 3448737 인천 = 2890451 대구 = 2466052 딕셔너리 객체에서 시리즈를 만들 수도 있.. 2022. 2. 15.
728x90
반응형
LIST