728x90 반응형 SMALL 결측치7 딥러닝을 위한 특징 벡터 인코딩 딥러닝을 위한 특징 벡터 인코딩 신경망은 다양한 유형의 데이터를 받아들일 수 있다. 테이블 형식의 데이터는 Microsoft Excel에서 일반적으로 볼 수 있는 데이터이다. 신경망에는 숫자 입력이 필요하다. 이 숫자 형식을 특징 벡터 (feature vector)라고 한다. 각 입력 뉴런은 이 벡터로부터 하나의 특징 (또는 열)을 받는다. 훈련 데이터의 각 행은 일반적으로 하나의 벡터가 된다. import pandas as pd pd.set_option ('display.max_columns', 7) pd.set_option ('display.max_rows', 5) df = pd.read_csv("https://data.heatonresearch.com/data/t81-558/jh-simple-dat.. 2023. 11. 7. 결측치 (Missing Values) / 특이치 (Outliers) 결측치 (Missing Values) 결측치는 기계 학습의 현실이다. 모든 데이터 행에는 모든 열에 대한 값이 있는 것이 이상적이다. 하지만, 이것은 거의 그렇지 않다. 일반적인 방법은 결측값을 해당 열의 중앙값으로 바꾸는 것이다. 이 프로그램은 중앙값 (median)을 계산한다. csv 파일을 다운받는다. import os import pandas as pd df = pd.read_csv('auto-mpg.csv', na_values = ['NA', '?']) print(f"horsepower has na? {pd.isnull(df['horsepower']).values.any()}") print("Filling missing values ...") med = df['horsepower'].median.. 2023. 5. 1. [Data Science] 데이터 전처리 데이터 전처리 모든 데이터 분석 프로젝트에서 데이터 전처리는 반드시 거쳐야 하는 과정이다. 대부분의 데이터 분석가가 좋아하지 않는 과정이지만, 분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다루어지는 과정이다. 한 설문조사에 의하면, 분석가의 80% 시간을 데이터 수집 및 전처리에 사용한다고 하니, 얼마나 중요한 과정인지 짐작할 수 있다. 물론 지루하고 반복 작업의 연속이기 때문에 시간이 많이 들어가는 측면도 있을 것이다. 실무에 사용되는 데이터셋은 바로 분석이 불가능할 정도로 지저분 (messy)하다. 분석이 가능한 상태로 만들기 위해 전처리 방식이 자주 사용된다. 모든 강의에 걸쳐서 전처리 단계는 중요하게 그리고 반복적으로 다뤄진다. 데이터 불러오기 및 인덱스 지정.. 2022. 11. 1. [ANN] GRU으로 삼성전자 주가 예측 GRU으로 삼성전자 주가 예측 yahoo finance에서 데이터 다운로드 후 3일 (3MA), 5일 (5MA) 가격이평선 추가한다. import tensorflow as tf import numpy as np import pandas as pd import matplotlib.pyplot as plt from tensorflow.keras.models import Sequential from tensorflow.keras.layers import GRU, Dense, Dropout # yahoo finance로부터 데이터 다운로드 raw_df = pd.read_csv('./000000.KS_3MA_5MA.csv') raw_df.head() plt.title('SAMSUNG ELECTRONIC STCOK.. 2022. 10. 21. [ANN] LSTM으로 삼성전자 주가 예측 LSTM으로 삼성전자 주가 예측 yahoo finance에서 데이터 다운로드 후 3일 (3MA), 5일 (5MA) 가격이평선 추가한다. import tensorflow as tf import numpy as np import pandas as pd import matplotlib.pyplot as plt from tensorflow.keras.models import Sequential from tensorflow.keras.layers import LSTM, Dense, Dropout # yahoo finance로부터 데이터 다운로드 raw_df = pd.read_csv('./000000.KS_3MA_5MA.csv') raw_df.head() plt.title('SAMSUNG ELECTRONIC STC.. 2022. 10. 21. [Data Science] 결측치 처리 (1) 결측치 (Missing Data) 다른 항목 측정 시 측정되지 않거나, 네트워크 문제로 인해 누락된 값을 말한다. 데이터마다 측정되는 항목 또한 상이하다. 결측치 처리 삭제 특정 행의 데이터를 삭제하거나 결측치가 많은 특징을 삭제한다. 보간 평균값, 최빈값, 중간값 보간 시 훈련 데이터 (training data)를 기준으로 계산하여 검증 데이터 (validation data)나 테스트 데이터 (test data)에 적용 당뇨병 데이터 전처리 import numpy as np import pandas as pd df = pd.read_csv('Diabetes_Database.csv') df.head() 결측치 확인 print(df.isnull().sum()) Pregnancies 0 Glucose 0 B.. 2022. 9. 24. [Data Science] 공공포털 데이터 (2) 결측치 결측치 (Missing Value)는 말 그대로 데이터에 값이 없는 것을 뜻한다. 줄여서 'NA'라고 표현하기도 하고, 다른 언어에서는 Null 이란 표현을 많이 쓴다. 결측치는 데이터를 분석하는데에 있어서 매우 방해가 되는 존재이다. 결측치의 특성이 '무작위로 손실' 되지 않았다면, 대부분의 경우 가장 좋은 방법은 제거하는 것이다. 제거하는 방식은 목록 삭제 (Listwist) 단일값 삭제 (Pairwise) 방식으로 다시 구분된다. pandas에서 제공하는 Na/NaN과 같은 누락 데이터를 제거하는 함수가 있다. df.isnull() null_count = df.isnull().sum() 상가업소번호 0 상호명 0 지점명 105507 상권업종대분류코드 0 상권업종대분류명 0 상권업종중분류코드 .. 2022. 9. 19. 이전 1 다음 728x90 반응형 LIST