의사 결정 트리 모델을 장바구니로 이동

지니 불순물—의사 결정 트리에서 노드를 분할하는 또 다른 기준

가장 인기있는 고전적인 기계 학습 알고리즘 중 하나로서 의사 결정 트리는 설명 가능성으로 인해 다른 것보다 훨씬 직관적입니다. 의사 결정 트리 모델을 구성하는 알고리즘을 도입했습니다.의사결정 트리 기본 사항 및 아이디 3 알고리즘

  • 그리고 그 이유는 무엇입니까?5 알고리즘

이 글에서,나는 또한 아마 가장 일반적으로 사용되는 의사 결정 트리 모델을 구축하기위한 카트라는 또 하나의 알고리즘을 소개합니다. 이 라이브러리는 그러한 문제를 표준화된 프로그래밍 인터페이스를 제공함으로써 해결합니다.

사진 683440 에

장바구니 알고리즘은 분류 및 회귀 트리의 약자입니다. 그것은 브레이 만 등에 의해 발명되었다. 1984 년.

그것은 일반적으로 매우 유사하다 씨 4.5 개에는,그러나 뒤에 오는 중요한 특성이 있습니다:

  1. 여러 개의 분기를 가질 수있는 일반 트리 대신 카트는 각 노드에서 두 개의 분기 만있는 이진 트리를 사용합니다.
  2. 장바구니는 정보 이득이 아닌 노드를 분할하는 기준으로 지니 불순물을 사용합니다.
  3. 장바구니는 숫자 대상 변수를 지원하므로 연속 값을 예측하는 회귀 트리가 될 수 있습니다.

이 문서에서는 분류 트리로 카트에 초점을 맞출 것이다.

지니 불순물

정보이득에 의존하여 노드를 분할하는 알고리즘처럼,장바구니 알고리즘은 노드를 분할하기 위해 지니라는 또 다른 기준을 사용한다.

경제학을 배운 적이 있다면,한 국가 또는 다른 그룹의 사람들 내에서 소득 불평등이나 부의 불평등을 나타내는 지니 지수에 익숙해야합니다.

카트 알고리즘에서는 유사한 목적으로 지니 계수를 직관적으로 사용합니다. 즉,더 큰 지니 계수는 노드의 더 큰 불순물을 의미합니다. 지니 계수는 더 큰 불확실성(예:불순물)을 가진 노드를 찾은 다음 분할하도록 카트 알고리즘을 안내합니다.

지니 계수의 공식은 우리가 다른 두 의사 결정 트리 알고리즘에서 사용한 정보 이득 및 정보 이득 비율보다 상대적으로 간단합니다. 그것은 다음과 같이 표시됩니다.

  • 피(씨케이|티)는 노드의 확률 티 카테고리 씨케이.
  • 노드의 지니 계수 티는 1 에서 모든 범주의 확률의 합을 뺀 값입니다.

공식에 겁 먹지 마십시오. 그것을 시연하기 위하여 보기를 가지고 가자. 나는 그것을 이해하기 어렵지 않다 약속드립니다.

아래 예는 의사 결정 트리에 대해 작성한 다른 모든 기사에서 사용되었습니다.

우리는”날씨”기능을 사용하여 분할하여 의사 결정 트리를 시작하려는 가정하자. 그런 다음 조건에 대한 지니 계수를 계산해야합니다. 아래 표에 나와 있는 날씨 속성과 결과에 초점을 맞추겠습니다.

확률을 계산하는 것은 매우 쉽습니다 피(씨케이/티). 예를 들어,”날씨=맑은”속성을 고려하면 3 개의 샘플 중 1 개의”예”와 2 개의”아니오”가 있습니다. 따라서 범주”예”의 확률은 1/3 이며 범주”아니오”의 경우 2/3 입니다. 그런 다음 다음과 같이 모든 지니 계수를 쉽게 계산할 수 있습니다.

답글 남기기

이메일 주소는 공개되지 않습니다.