[Data Science] 결측치 처리 (2)
범주형 데이터 처리 원핫 인코딩 ➢ 범주형 데이터의 개수만큼 변수를 생성하여 해당 여부를 0 또는 1로 표현 df = pd.read_csv('Medical_dataset.csv') df.head() print(df.dtypes) age float64 sex object bmi float64 smoker object region object children int64 charges float64 dtype: object df_all_columns = pd.get_dummies(df) df_all_columns.head() # 특정 특징만 변경 gender = pd.get_dummies(df[['sex']]) gender.head() bins = [0,10,20,30,40,50,60,70,80,90,101]..
2022. 9. 26.
[Data Science] 데이터 시각화 (4)
파일 불러오기 import pandas as pd import matplotlib.pyplot as plt plt.rcParams["font.family"] = "Malgun Gothic" graph = pd.read_excel("test_data.xlsx", sheet_name = "Sheet1") graph.head(10) 선 그래프 graph.plot(y = ["국어", "영어", "수학"], grid = True, title = "선그래프", color = ["green", "red", "blue"]) plt.show() 산점도 그래프 graph.plot.scatter(x = "반", y = "영어", color = "red", title = "영어 점수 산점도") plt.show() 막대 그래프..
2022. 9. 22.
[Data Science] 데이터 시각화 (2)
히스토그램 (Histogram) 히스토그램 (Histogram)은 ‘변수가 하나인 데이터의 빈도수’를 그래프로 표현하는 것을 말한다. x축을 같은 크기의 여러 구간으로 나누고 각 구간에 속하는 데이터 값의 빈도를 y축에 표시한다. 구간을 나누는 간격의 크기에 따라 빈도와 히스토그램 모양이 변한다. plt.bar(x, y, width, color) (x = 범주, y = 그래프의 높이, width = 그래프 폭, color = 색상) # 막대 그래프 그리기 x = ['사과', '포도', '딸기'] # 항목 데이터 y = [12, 31, 24] # 빈도(크기) 데이터 # 그래프 제목 plt.title("과일 생산량") # 색상은 밝은 파랑, 그래프 폭은 0.5 plt.bar(x, y, color = "lig..
2022. 9. 22.