이상 탐지 (Anomaly Detection)
변칙은 데이터 세트의 예상된 패턴에서 예상치 못한 변화 또는 편차이다. 이상 탐지는 이상 징후가 예상과 다르게 발생하고 있음을 보여주기 때문에 비정상적인 동작을 경고하는 데 사용된다.
이상 징후가 반드시 좋거나 나쁜 것은 아니지만, 기업은 패턴의 단절에 대해 알아야 조치를 취할 필요가 있는지 여부를 평가할 수 있다.
기업은 일상적인 운영 중에 수백만 개의 데이터 포인트를 생성하지만, 그 중요한 정보의 대부분은 사용되지 않고 잊혀진다. 이러한 이유로 비즈니스 세계에서 이상 탐지 기능이 점점 더 부각되고 있다. 즉, 운영을 최적화하고 프로세스를 간소화하여 보다 예측 가능한 미래를 실현하는 것이다.
Anomalies와 Outliers의 차이
많은 비즈니스 사용자들이 변칙과 특이치라는 용어를 번갈아 사용하지만, 주요 차이점이 있다. 변칙은 특이치와 유사하지만 동일하지는 않다.
모든 데이터가 일련의 공정에 의해 생성된다고 가정하면 특이치는 주어진 데이터 집합 내에서 발생 확률이 낮은 점이다. 관측점은 정규 모집단 내의 다른 관측치와 멀리 떨어져 있는 관측점이다. 그러나 특이치가 반드시 다른 공정으로 인해 발생한 비정상적인 동작이나 동작을 나타내는 것은 아니다. 특이치는 동일한 공정에서 생성되지만 낮은 확률로 발생한다.
반대로, 변칙은 서로 다른 프로세스에 의해 생성되는 패턴이다. 이러한 다양한 프로세스는 기업에 무언가가 변경되었음을 알릴 수 있으며, 장비 고장 또는 피로와 같은 추가 조치가 필요할 수 있다.
때로는 특정 데이터 포인트가 나타내는 범주를 결정하는 데 판단력과 주제에 대한 전문 지식이 필요하다.
What is the Value of Anomaly Detection?
기업은 매일 방대한 양의 데이터를 생성한다. 이 데이터를 올바르게 활용하면 기업이 더 나은 의사 결정을 더 빠르게 내릴 수 있다. 한 가지 방법은 이상 탐지를 통해서이다. 이상 징후를 탐지하면 사소한 문제가 광범위하고 시간이 많이 걸리는 문제가 되는 것을 막을 수 있다. 최신 기계 학습 방법을 사용하여 기업은 동향을 추적하고, 기회와 위협을 식별하며, 이상 탐지를 통해 경쟁 우위를 확보할 수 있다.
시각화 (Visualization) | 데이터 분석가 또는 비즈니스 분석가는 데이터 시각화를 구축하여 예상치 못한 행동을 찾아낸다. 종종 사전 비즈니스 지식과 창의적인 사고가 필요하기 때문에 올바른 데이터 시각화를 통해 답을 찾을 수 있다. 주요 구성 요소, TSNE 및 UMAP에서 생성된 것과 같은 고급 시각화를 통해 저차원 맵을 통해 고차원 데이터에 액세스할 수 있다. |
지도 학습 (Supervised Learning) | 지도 학습은 특정 산업에서 비즈니스 지식을 가진 사람들을 사용하여 일련의 데이터 포인트를 정상 또는 비정상으로 레이블링한다. 그런 다음 분석가는 이 레이블이 지정된 데이터를 사용하여 레이블이 지정되지 않은 새 데이터에 대한 이상 징후를 예측하는 기계 학습 모델을 구축한다. |
비지도 학습 (Unsupervised Learning) | 레이블이 지정되지 않은 데이터는 새로운 데이터를 예측하기 위해 감독되지 않은 기계 학습 모델을 구축하는 데 사용된다. 모형이 정규 데이터에 적합하도록 맞춤화되어 있기 때문에 변칙적인 소수의 데이터 점이 눈에 띈다. |
시계열 | 시계열 데이터의 추세, 계절성 및 수준을 캡처하는 모델을 사용하여 시계열 분석을 통해 이상 징후를 탐지한다. 새 데이터가 모형에서 너무 많이 벗어나면 이상 또는 모형 고장이 표시된다. |
오토인코더 (Autoencoder) | 최신 기계 학습 기술과 자동 인코더는 실시간으로 이상 징후를 감지하고 대응한다. 신경망은 트랜잭션 및 센서 데이터 피드의 이상을 예측할 수 있다. |
군집화 (Clustering) | 분석가들은 각 데이터 점을 미리 정의되거나 검색된 여러 클러스터 중 하나로 분류할 수 있다. 알려진 클러스터에 포함되지 않는 경우는 이상 현상으로 간주할 수 있다. |
https://www.tibco.com/reference-center/what-is-anomaly-detection
'Learning-driven Methodology > ML (Machine Learning)' 카테고리의 다른 글
[Machine Learning] 추천 시스템 (Recommender System) (0) | 2022.12.07 |
---|---|
[Machine Learning] 의사 결정 트리 : 붓꽃 (Iris) (0) | 2022.11.29 |
[Machine Learning] 오토인코더 (Autoencoder) (0) | 2022.11.11 |
[XGBoost] 보험료 예측 (0) | 2022.10.05 |
[XGBoost] 심혈관 질환 예측 (0) | 2022.10.05 |