Przenieś swój Model drzewa decyzyjnego przez koszyk

zanieczyszczenie Gini — kolejne kryterium dzielenia węzła w drzewie decyzyjnym

jako jeden z najpopularniejszych klasycznych algorytmów uczenia maszynowego, drzewo decyzyjne jest znacznie bardziej intuicyjne niż inne ze względu na jego wyjaśnianie. W poprzednich artykułach przedstawiłem algorytmy ID3 i C4. 5 do konstruowania modeli drzewa decyzyjnego.

podstawy drzewa decyzyjnego i algorytm ID3

wady ID3 i C4.5 algorytm

w tym artykule przedstawię jeszcze jeden algorytm o nazwie CART do budowy modelu drzewa decyzyjnego, który jest również prawdopodobnie najczęściej używany. Przy okazji, jest to domyślny algorytm podczas korzystania z biblioteki Scikit-Learn dla klasyfikatora drzewa decyzyjnego.

algorytm koszyka jest skrótem drzew klasyfikacji i regresji. Został wynaleziony przez Breimana i wsp. w 1984 roku .

ogólnie jest bardzo podobny do C4.5, ale mają następujące główne cechy:

zamiast ogólnych drzew, które mogą mieć wiele gałęzi, CART używa drzewa binarnego, które ma tylko dwie gałęzie z każdego węzła.
koszyk używa zanieczyszczenia Gini jako kryterium dzielenia węzła, a nie przyrostu informacji.
CART obsługuje numeryczne zmienne docelowe, co pozwala stać się drzewem regresji, które przewiduje wartości ciągłe.

ten artykuł skupi się na Koszyku jako drzewie klasyfikacji.

Gini

podobnie jak algorytmy ID3 i C4.5, które opierają się na zysku informacji jako kryterium dzielenia węzłów, algorytm koszyka wykorzystuje inne kryterium zwane Gini do dzielenia węzłów.

jeśli kiedykolwiek nauczyłeś się ekonomii, musisz znać indeks Giniego, który wskazuje na nierówność dochodów lub nierówność bogactwa w obrębie narodu lub jakiejkolwiek innej grupy ludzi .

w algorytmie CART w podobny sposób wykorzystuje się współczynnik Giniego. Oznacza to, że większy współczynnik Giniego oznacza większe zanieczyszczenie węzła. Podobnie jak w przypadku ID3 i C4. 5, wykorzystując zysk informacji, aby wybrać węzeł z większą niepewnością, współczynnik Giniego poprowadzi algorytm CART, aby znaleźć węzeł z większą niepewnością(tj.

wzór współczynnika Giniego jest stosunkowo prostszy niż współczynnik przyrostu informacji i współczynnika przyrostu Informacji, którego użyliśmy w dwóch pozostałych algorytmach drzewa decyzyjnego. Jest to pokazane w następujący sposób.

p (Ck / t) to prawdopodobieństwo, że węzeł T będzie kategorią Ck.
współczynnik Giniego węzła t wynosi 1 minus suma prawdopodobieństwa wszystkich kategorii.

nie bój się formuły. Weźmy przykład, aby to zademonstrować. Obiecuję, że nie jest to trudne do zrozumienia.

poniższy przykład został użyty we wszystkich innych artykułach, które napisałem na temat drzewa decyzyjnego.

Załóżmy, że chcemy rozpocząć drzewo decyzyjne od podziału za pomocą funkcji „pogoda”. Następnie musimy obliczyć współczynniki Giniego dla jego warunków. Skupmy się na atrybucie pogoda i wynikach, które są pokazane w tabelach poniżej.

bardzo łatwo jest obliczyć prawdopodobieństwo p (Ck / t). Na przykład, jeśli weźmiemy pod uwagę atrybut „weather = sunny”, ma on 1 „tak” i 2 „nie” z 3 próbek całkowicie. Dlatego prawdopodobieństwo kategorii ” tak „wynosi 1/3, a dla kategorii”nie” wynosi 2/3. Następnie możemy łatwo obliczyć współczynnik Giniego dla wszystkich w następujący sposób.

zanieczyszczenie Gini — kolejne kryterium dzielenia węzła w drzewie decyzyjnym

Gini

Dodaj komentarz Anuluj pisanie odpowiedzi