본문 바로가기
Learning-driven Methodology/ML (Machine Learning)

[Machine Learning] 분류 (Classification)

by goatlab 2022. 4. 28.
728x90
반응형
SMALL

분류 (Classification)

 

 

supervised ML의 문제의 타입 (problem type)에 따라 크게 두가지로 분류될 수 있다.
 
  • Regression (회귀 분석) : 주어진 데이터가 어떤 함수로부터 생성됐는가를 알아보는 ‘함수 관계’를 추측하는 것이다. 예측하는 결과값이 continuous value (연속값)
  • Classification (분류) : 분류는 말 그대로 입력이 어떤 카테고리에 해당하는지 나누는 것이다. 즉 예 아니오 와 같은 예측하는 결과값이 discrete value (이산값)

 

Classification은 주어진 데이터를 정해진 카테고리에 따라 분류하는 문제를 말한다. 최근에 많이 사용되는 이미지 분류도 Classification 중에 하나이다.
 
예를 들어, 이메일이 스팸메일인지 아닌지를 예측하려고 하면 이메일은 "스팸메일 / 정상적인 메일"로 라벨링 될 수 있을 것이다. 비슷한 예시로 암을 예측하려고 가정했을 때 이 종양이 "악성종양인지 / 아닌지"로 구분할 수 있다. 이처럼 맞다/아니다로 구분되는 문제를 Binary Classification이라고 부른다.
분류 문제가 모두 "맞다 / 아니다"로 구분되지는 않는다. 예를 들어, 공부시간에 따른 전공 "Pass / Fail"을 예측하려고 하면 이는 Binary Classification 으로 볼 수 있다. 반면에, 수능 공부시간에 따른 전공 학점을 A / B / C / D / F 으로 예측하는 경우도 있다. 이러한 분류를 Multi-label Classification이라고 한다.
Regression은 연속된 값을 예측하는 문제를 말한다. 주로 어떤 패턴이나 트렌드, 경향을 예측할 때 사용된다. Coursera에서는 Regression을 설명할 때 항상 집의 크기에 따른 매매가격을 예로 든다. 아까와 유사한 예를 들면, 공부시간에 따른 전공 시험 점수를 예측하는 문제를 예로 들 수 있다.
 
 
 

5.1.2. 분류 (Classification) - OneBook(Python & Deep Learning)

분류 문제가 모두 맞다 / 아니다로 구분되지는 않습니다. 예를 들어, 공부시간에 따른 전공 Pass/Fail을 예측하려고 하면 이는 Binary Classification 으로 볼 수 있습니다. 반면에, 수능 공부시간에 따른

sdc-james.gitbook.io

 

728x90
반응형
LIST