본문 바로가기
728x90
반응형
SMALL

데이터 전처리6

[Data Science] 데이터 전처리 데이터 전처리 모든 데이터 분석 프로젝트에서 데이터 전처리는 반드시 거쳐야 하는 과정이다. 대부분의 데이터 분석가가 좋아하지 않는 과정이지만, 분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다루어지는 과정이다. 한 설문조사에 의하면, 분석가의 80% 시간을 데이터 수집 및 전처리에 사용한다고 하니, 얼마나 중요한 과정인지 짐작할 수 있다. 물론 지루하고 반복 작업의 연속이기 때문에 시간이 많이 들어가는 측면도 있을 것이다. 실무에 사용되는 데이터셋은 바로 분석이 불가능할 정도로 지저분 (messy)하다. 분석이 가능한 상태로 만들기 위해 전처리 방식이 자주 사용된다. 모든 강의에 걸쳐서 전처리 단계는 중요하게 그리고 반복적으로 다뤄진다. 데이터 불러오기 및 인덱스 지정.. 2022. 11. 1.
[Pandas] 데이터 전처리 (1) 데이터프레임 (Dataframe) 데이터프레임은 dictionary 데이터 또는 list 데이터를 이용해서 생성할 수 있다. import pandas as pd data_dict = { 'Name' : ['John', 'Sabre', 'Kim', 'Sato', 'Lee', 'Smith', 'David'], 'Country' : ['USA', 'France', 'Korea', 'Japan', 'Korea', 'USA', 'USA'], 'Age' : [31, 33, 28, 40, 36, 55, 48], 'Job' : ['Student', 'Lawyer', 'Developer', 'Chef', 'Professor', 'CEO', 'Banker'] } df = pd.DataFrame(data_dict) impo.. 2022. 7. 23.
[TensorFlow] CSV 전처리 (2) 데이터 전처리 CSV 파일은 다양한 데이터 유형을 포함할 수 있다. 일반적으로 데이터를 모델에 공급하기 전에 혼합 유형에서 고정 길이 벡터로 변환한다. TensorFlow에는 일반적인 입력 변환을 설명하기 위한 내장 시스템이 있다. 자세한 내용은 tf.feature_column, 이 튜토리얼을 참조하면 된다. 원하는 도구 (ex: nltk 또는 sklearn)를 사용하여 데이터를 전처리하고 처리된 출력을 TensorFlow에 전달하면 된다. 모델 내에서 전처리를 수행할 때의 주요 이점은 모델을 내보낼 때 전처리가 포함된다는 것이다. 이렇게 하면 원시 데이터를 모델로 직접 전달할 수 있다. 연속 데이터 데이터가 이미 적절한 숫자 형식인 경우, 데이터를 모델로 전달하기 전에 벡터로 묶을 수 있다. SELEC.. 2022. 6. 16.
[TensorFlow] CSV 전처리 (1) CSV 데이터 로드 파일에서 tf.data.Dataset로 CSV 데이터를 로드하는 방법의 예이다. 여기에서 사용된 데이터는 Titanic 승객 목록에서 가져온 것이다. 이 모델은 연령, 성별, 티켓 등급 및 단독 여행 여부와 같은 특성을 기반으로 승객의 생존 가능성을 예측한다. 설정 import functools import numpy as np import tensorflow as tf TRAIN_DATA_URL = "https://storage.googleapis.com/tf-datasets/titanic/train.csv" TEST_DATA_URL = "https://storage.googleapis.com/tf-datasets/titanic/eval.csv" train_file_path = tf.. 2022. 6. 16.
[TensorFlow] 기본 분류 (이미지 분류) (1) 의류 이미지 분류 텐서플로 모델을 만들고 훈련할 수 있는 고수준 API인 tf.keras를 사용한다. # TensorFlow and tf.keras import tensorflow as tf # Helper libraries import numpy as np import matplotlib.pyplot as plt print(tf.__version__) 패션 MNIST 데이터셋 임포트하기 10개의 범주 (category)와 70,000개의 흑백 이미지로 구성된 패션 MNIST 데이터셋을 사용한다. 이미지는 해상도 (28x28 픽셀)가 낮고 다음처럼 개별 옷 품목을 나타낸다. 패션 MNIST는 컴퓨터 비전 분야의 "Hello, World" 프로그램격인 고전 MNIST 데이터셋을 대신해서 자주 사용된다. M.. 2022. 6. 15.
[EEGLAB] 데이터 전처리 (Filtering) (1) 데이터 전처리 EEG 데이터는 행동 관련 EEG 파생 측정을 계산하기 전에 사전 처리되어야 한다. Filtering 아래는 컷오프 주파수, 통과 대역, 정지 대역 및 전환 대역의 의미에 대한 그래픽 설명입니다. 기본 Windowed Sync 필터에서 필터 차수에 대한 몇 가지 합리적인 시작 값을 제공한다. 2 * 고역 통과 및 대역 통과에 대한 차단 주파수 (차단 < 2Hz의 경우), 저역 통과의 경우 차단 주파수의 20 ~ 40%, line noise 대역 정지의 경우 1 ~ 5Hz이다. 기본 규칙은 아티팩트를 피하기 위해 가능한 한 넓은 전환 대역을 갖는 것이다 (roll-off soft). 그러나 관심 신호에서 분리된다. 데이터 필터링 linear trends을 제거하기 위해 데이터를 고역 통과 필.. 2022. 4. 15.
728x90
반응형
LIST