본문 바로가기
DNN with Keras/Machine Learning

범주형 (Categorical) 및 연속형 (Continuous) 값

by goatlab 2023. 7. 27.
728x90
반응형
SMALL

Categorical and Continuous Values

 

신경망은 고정된 수의 열이 입력되어야 한다. 이 입력 형식은 스프레드시트 데이터와 매우 유사하다. 신경망이 데이터로부터 학습할 수 있도록 데이터를 표현하는 것이 필수적이다. 데이터를 전처리하는 구체적인 방법을 위해 정의된 4가지 기본 유형의 데이터를 고려하는 것이 중요하다. 통계학자들은 일반적으로 다음과 같은 측정 수준을 말한다.

 

문자 데이터 (문자열)
  • Nominal : 개별 이산 항목, 순서가 없다. 예를 들어, 색상, 우편 번호 및 모양
  • Ordinal : 개별 고유 항목에는 순서가 내포되어 있다. 예를 들어, 등급 수준, 직책, 스타벅스 커피 사이즈 (tall, venti, grande)
수치 데이터 (Numeric Data)
  • 간격 (Interval) : 숫자 값, 시작이 정의되지 않는다. 예를 들어, 온도에서 "어제는 오늘보다 두 배 더 덥다."
  • 비율 (Ratio) : 숫자 값, 명확하게 정의된 시작점이 있다. 예를 들어, 속도에서 "첫 번째 차가 두 번째 차보다 두 배 더 빨리 간다."라고 말할 수 있다.

 

Encoding Continuous Values

 

한 가지 일반적인 변환은 입력을 정규화하는 것이다. 때로는 표준 형식으로 숫자 입력을 정규화하여 프로그램이 이 두 값을 쉽게 비교할 수 있도록 하는 것이 중요하다. 백분율은 일반적인 정규화의 한 형태이다. 널리 퍼진 기계 학습 정규화는 Z 점수 (Z-Score)이다.

 

 

Z-Score를 계산하려면 평균 (µ or x¯)과 표준 편차(σ)를 계산해야 한다. 다음 식으로 평균을 계산할 수 있다.

 

 

표준 편차 (standard deviation)는 다음과 같이 계산된다.

 

 

다음 파이썬 코드는 mpg를 z-score로 대체한다. 평균 MPG가 있는 자동차는 0에 가깝고, 0 이상은 평균 이상, 0 이하는 평균 이하이다. 위 또는 아래가 3개 이상인 Z-score는 매우 희귀하다.

 

import os
import pandas as pd
from scipy.stats import zscore

df = pd.read_csv('auto-mpg.csv', na_values = ['NA', '?'])

pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 5)

df['mpg'] = zscore(df['mpg'])
display(df)

728x90
반응형
LIST

'DNN with Keras > Machine Learning' 카테고리의 다른 글

타겟 인코딩 (Target Encoding)  (0) 2023.07.27
원핫 인코딩 (One-Hot-Encoding)  (0) 2023.07.27
데이터프레임 저장  (0) 2023.07.27
데이터프레임 전처리  (0) 2023.07.27
Dropping / Concatenating  (0) 2023.07.27