본문 바로가기
Data-driven Methodology/DS (Data Science)

[Data Science] 의사결정 트리 (Decision Tree) (1)

by goatlab 2022. 9. 27.
728x90
반응형
SMALL

의사결정 트리 (Decision Tree)

 

어떤 규칙을 하나의 트리 (tree) 형태로 표현한 후 이를 바탕으로 분류나 회귀 문제를 해결하는 것이다. 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것이다. 머신러닝 알고리즘 중 가장 직관적으로 이해하기 쉬운 알고리즘이다. 머신러닝 모델 중 데이터에 대한 설명성이 존재하기에 효과와 실용성이 가장 좋다.

 

트리 구조의 마지막 노드에는 분류 문제에서 클래스, 회귀 문제에서는 예측치가 들어간다. 규칙은 ‘if-else’ 문으로 표현이 가능하다.

 

트리 구조

 

https://medium.com/@bantzviper21st/what-is-decision-tree-and-how-it-works-2637178915fc

  • 네모 박스 : 노드 (Node)
  • 루트 노드 (Root node) : 트리의 가장 높은 곳에 위치하고 있는 노드
  • 가지 (Branches) : 노드와 노드를 연결하는 화 살표
  • 규칙 / 결정 노드 (decision node) : 규칙의 조건을 표시함
  • 리프 노드 (leaf node) : 결정된 클래스 (분류) 값을 표시함

 

의사결정 트리 분류기

 

의사결정 트리의 노드 (node) 구성이 가장 중요하다. 마지막 노드에 클래스나 예측치를 기입하고 상위의 부모 노드들에는 if-else문의 조건에 해당하는 정보를 기입한다.

 

분할 속성 (Splitting Attributes)

 

분할 속성 (splitting attributes)은 부모 노드에 들어가는 if-else문의 조건들을 지칭한다. 많은 분할 (규칙)이 있다는 것은 분류를 결정하는 방식이 복잡하다는 의미한다. 트리의 깊이 (depth)가 깊어질수록 결정 트리의 예측 성능이 저하될 가능성이 커진다. 가능한 적은 노드로 높은 예측 정확도를 가지려면 최대한 많은 데이터 세트가 해당 분류에 속할 수 있도록 결정 노드의 규칙이 정해져야 한다. 어떤 분할 속성이 가장 모호성을 줄일 것인지 파악해야 한다.

 

불순도 (Impurity) & 불확실성 (Uncertainty)

 

한번 분기 때마다 변수 영역을 2개로 구분하는 모델이다. 데이터는 순도를 높이고 불순도나 불확실성을 낮추는 것이 좋다.

 

엔트로피

 

엔트로피는 열역학적으로 융용하지 않은 에너지의 흐름을 설명할 때 이용되는 상태 함수를 말한다. 다시 말해, 주어진 데이터 집합의 혼잡도를 의미한다. 현재의 정보 제공 상태를 측정하고, 분할할 속성 하나를 선택하였을 때 정보를 제공하는 기준 값을 정하고, 그 값을 최소화 또는 최대화하는 방향으로 알고리즘을 실행한다.

 

https://seominseok4834.github.io/machine%20learning/4.classification/

 

여기서, 어떻게 트리를 분할 (split)할 것인가가 중요하다. 최대한 균일한 데이터 세트로 구성되도록 분할하는 것이 필요하다. 그림에서 C > B > A 순으로 균일한 데이트 세트라고 볼 수 있다.

 

  • 낮은 엔트로피 = 같은 값이 다수 (경우의 수가 적음) = 낮은 불확실성
  • 높은 엔트로피 = 서로 다른 값이 섞임 (경우의 수가 많음) = 높은 불확실성

 

결정 노드는 정보 균일도가 높은 데이터 세트를 먼저 선택할 수 있도록 규칙 조건을 만들어 준다.

 

정보의 균일도를 측정하는 대표적인 방법으로는 엔트로피를 이용한 정보 이득 (Information Gain) 지수와 지니 계수가 있다.

 

정보 이득 (IG) 지수 결정 트리는 정보 이득이 높은 (엔트로피는 낮음) 속성을 기준으로 분할한다.
지니 계수 경제학에서 불평등 지수를 나타낼 때 사용하는 지수이다.
  • 0 : 가장 평등 (비슷한 값이 많음), 1: 가장 불평등 (서로 다른 값이 많음)
  • 지니 계수가 낮을수록 데이터 균일도가 높은 것으로 해석해 지니 계수가 낮은 속성을 기준으로 분할한다.

 

샤논 (Shannon, Claude Elwood) 공식

 

https://towardsdatascience.com/entropy-is-a-measure-of-uncertainty-e2c000301c2c

 

엔트로피를 측정하는 방법으로는 샤논 (Shannon, Claude Elwood) 공식을 사용한다. 어떤 확률 분포가 가지는 정보량을 Shannon Entropy라고 한다. 

728x90
반응형
LIST