Dostat Své Rozhodovací Strom Modelu, Pohybující se VOZÍK

Giniho Nečistota — další kritérium pro rozdělení uzel v rozhodovacího stromu

Jako jeden z nejvíce populární klasické strojové učení algoritmus, Rozhodovací Strom je mnohem více intuitivní než ostatní, pro jeho explainability. Ve svých předchozích článcích jsem představil algoritmy ID3 a C4. 5 pro konstrukci modelů rozhodovacích stromů.

  • základy rozhodovacího stromu a algoritmus ID3
  • ID3 nevýhody a C4.5 algoritmus

v tomto článku představím ještě jeden algoritmus nazvaný CART pro vytvoření modelu rozhodovacího stromu, který je také pravděpodobně nejčastěji používaný. Mimochodem, to je výchozí algoritmus při použití Scikit-Learn knihovnu pro klasifikátor rozhodovacího stromu.

Fotografie od 683440 na

KOŠÍKU Algoritmus je zkratka pro Klasifikační A Regresní Stromy. To bylo vynalezeno Breiman et al. v roce 1984 .

je obecně velmi podobný C4.5, ale mají následující hlavní charakteristiky:

  1. Spíše než obecné stromy, které by mohli mít více poboček, VOZÍK využívá binární strom, který má jen dvě větve od každého uzlu.
  2. košík používá jako kritérium pro rozdělení uzlu nečistotu Gini, nikoli zisk informací.
  3. CART podporuje číselné cílové proměnné, což umožňuje stát se regresním stromem, který předpovídá spojité hodnoty.

tento článek se zaměří na košík jako klasifikační strom.

Giniho Nečistota

Fotografie od qimono na

Stejně jako ID3 a C4.5 algoritmy, které se spoléhají na Informace, Zisk jako kritérium pro rozdělení uzlů, VOZÍK algoritmus využívá další kritérium se nazývá Giniho rozdělit uzly.

Pokud jste někdy dozvěděl, ekonomie, musíte být obeznámeni s Giniho Index, který vyjadřuje nerovnost příjmů nebo bohatství nerovnost v rámci národa nebo jiné skupiny osob .

v algoritmu CART intuitivně používá Giniho koeficient pro podobný účel. To znamená, že větší Giniho koeficient znamená větší nečistotu uzlu. Podobně jako ID3 a C4. 5 pomocí informačního zisku pro výběr uzlu s větší nejistotou, Giniho koeficient povede algoritmus CART k nalezení uzlu s větší nejistotou (tj.

vzorec Giniho koeficient je relativně jednodušší, než Získat Informace a Informace Získat Poměr, který jsme použili v dalších dvou Rozhodovací Strom algoritmu. Zobrazuje se následovně.

  • p(Ck|t) je pravděpodobnost uzlu t je kategorie Ck.
  • Giniho koeficient uzlu t je 1 mínus součet pravděpodobnosti všech kategorií.

nebojte se vzorce. Vezměme si příklad, abychom to ukázali. Slibuji, že to není těžké pochopit.

níže uvedený příklad byl použit ve všech ostatních článcích, které jsem napsal o rozhodovacím stromu.

Předpokládejme, že chceme začít Rozhodovací Strom rozdělením pomocí „Počasí“ funkce. Poté musíme vypočítat Giniho koeficienty pro jeho podmínky. Zaměřme se na atribut počasí a výsledky, které jsou uvedeny v níže uvedených tabulkách.

To je docela snadné vypočítat pravděpodobnost p(Ck|t). Pokud například vezmeme v úvahu atribut „weather = sunny“, má 1 „ano“ a 2 „Ne“ ze 3 vzorků úplně. Proto je pravděpodobnost Kategorie “ Ano “ 1/3 a pro kategorii „ne“je 2/3. Pak můžeme snadno vypočítat Giniho koeficient pro všechny z nich následujícím způsobem.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.