728x90 반응형 SMALL 이상치3 [Machine Learning] 이상 탐지 (Anomaly Detection) 이상 탐지 (Anomaly Detection) 변칙은 데이터 세트의 예상된 패턴에서 예상치 못한 변화 또는 편차이다. 이상 탐지는 이상 징후가 예상과 다르게 발생하고 있음을 보여주기 때문에 비정상적인 동작을 경고하는 데 사용된다. 이상 징후가 반드시 좋거나 나쁜 것은 아니지만, 기업은 패턴의 단절에 대해 알아야 조치를 취할 필요가 있는지 여부를 평가할 수 있다. 기업은 일상적인 운영 중에 수백만 개의 데이터 포인트를 생성하지만, 그 중요한 정보의 대부분은 사용되지 않고 잊혀진다. 이러한 이유로 비즈니스 세계에서 이상 탐지 기능이 점점 더 부각되고 있다. 즉, 운영을 최적화하고 프로세스를 간소화하여 보다 예측 가능한 미래를 실현하는 것이다. Anomalies와 Outliers의 차이 많은 비즈니스 사용자들.. 2022. 11. 17. [Data Science] 데이터 전처리 데이터 전처리 모든 데이터 분석 프로젝트에서 데이터 전처리는 반드시 거쳐야 하는 과정이다. 대부분의 데이터 분석가가 좋아하지 않는 과정이지만, 분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다루어지는 과정이다. 한 설문조사에 의하면, 분석가의 80% 시간을 데이터 수집 및 전처리에 사용한다고 하니, 얼마나 중요한 과정인지 짐작할 수 있다. 물론 지루하고 반복 작업의 연속이기 때문에 시간이 많이 들어가는 측면도 있을 것이다. 실무에 사용되는 데이터셋은 바로 분석이 불가능할 정도로 지저분 (messy)하다. 분석이 가능한 상태로 만들기 위해 전처리 방식이 자주 사용된다. 모든 강의에 걸쳐서 전처리 단계는 중요하게 그리고 반복적으로 다뤄진다. 데이터 불러오기 및 인덱스 지정.. 2022. 11. 1. [Data Science] 이상치 처리 이상치 (Outlier) 극단적으로 값이 크거나 작은 값을 말한다. 데이터 오기입 혹은 특이 현상을 칭한다. 당뇨병 데이터셋 ➢ Pregnancies : 임신 횟수 ➢ Glucose : 포도당 부하 검사 수치 ➢ BloodPressure : 혈압 ➢ SkinThinkness : 삼두근 피부 두께 ➢ Insulin : 인슐린 수치 ➢ BMI : BMI 수치 ➢ DiabetesPedigreeFunction : 당뇨병 가족력 ➢ Age : 나이 ➢ Outcome : 당뇨병 여부 import numpy as np import pandas as pd df = pd.read_csv('Diabetes_Database.csv') for key in ["Glucose","BloodPressure","SkinThickne.. 2022. 9. 26. 이전 1 다음 728x90 반응형 LIST