laat uw Beslissingsboommodel bewegen met CART

Gini onzuiverheid-een ander criterium voor het splitsen van knoop in een beslissingsboom

als een van de meest populaire klassieke machine learning algoritme, is de beslissingsboom veel intuïtiever dan de andere vanwege zijn uitlegbaarheid. In mijn vorige artikelen heb ik de ID3 en C4.5 algoritmen geïntroduceerd voor het maken van Beslissingsboommodellen.

  • basisbeginselen van de beslissingsboom en ID3-algoritme
  • ID3 nadelen en C4.5 algoritme

In dit artikel introduceer ik nog een algoritme genaamd CART voor het bouwen van een Beslissingsboommodel, dat waarschijnlijk ook het meest gebruikte is. BTW, het is de standaard algoritme wanneer u gebruik maakt van Scikit-Learn bibliotheek voor een beslissing boom Classifier.

Photo by 683440 on

Cart Algorithm is een afkorting van classificatie en regressie bomen. Het werd uitgevonden door Breiman et al. in 1984 .

het is over het algemeen zeer vergelijkbaar met C4.5, maar hebben de volgende belangrijke kenmerken:

  1. in plaats van algemene bomen die meerdere takken kunnen hebben, maakt CART gebruik van binaire boom, die slechts twee takken van elk knooppunt heeft.
  2. CART gebruik Gini-onzuiverheid als het criterium om de knoop te splitsen, niet Informatiewinst.
  3. CART ondersteunt numerieke doelvariabelen, wat zichzelf in staat stelt om een Regressieboom te worden die continue waarden voorspelt.

dit artikel zal zich richten op CART als een Classificatieboom.

Gini-onzuiverheid

foto door qimono op

net als de ID3 en C4.5 algoritmen die vertrouwen op Informatiewinst als het criterium om knooppunten te splitsen, maakt het KARALGORITME gebruik van een ander criterium genaamd Gini om de knooppunten te splitsen.

als u ooit economie hebt geleerd, moet u bekend zijn met de Gini-Index, die de inkomensongelijkheid of welvaartsongelijkheid binnen een natie of een andere groep mensen aangeeft .

in het CART-algoritme wordt intuïtief de Gini-coëfficiënt gebruikt voor een vergelijkbaar doel. Dat wil zeggen, de grotere Gini coëfficiënt betekent de grotere onzuiverheid van de knoop. Vergelijkbaar met ID3 en C4. 5 met behulp van Informatieversterking om het knooppunt met meer onzekerheid te selecteren, zal de Gini-coëfficiënt het karalgoritme begeleiden om het knooppunt met grotere onzekerheid (dwz onzuiverheid) te vinden en vervolgens te splitsen.

de formule van de Gini-coëfficiënt is relatief eenvoudiger dan de Informatieversterking en de Informatieversterkingsratio die we hebben gebruikt in het andere algoritme van de twee beslissingsboom. Het wordt als volgt weergegeven.

  • p (Ck|t) is de kans dat een knoop t de categorie Ck is.
  • de Gini-coëfficiënt van knoop t is 1 min de som van de waarschijnlijkheid van alle categorieën.

wees niet bang door de formule. Laten we een voorbeeld nemen om het te demonstreren. Ik beloof dat het niet moeilijk te begrijpen is.

het voorbeeld hieronder is gebruikt in alle andere artikelen die ik heb geschreven over Decision Tree.

stel dat we de beslissingsboom willen starten door te splitsen met behulp van de functie “weer”. Dan moeten we de Gini-coëfficiënten berekenen voor de omstandigheden. Laten we ons concentreren op het weerattribuut en de resultaten, die in de onderstaande tabellen wordt weergegeven.

het is vrij eenvoudig om de waarschijnlijkheid p(Ck|t) te berekenen. Bijvoorbeeld, als we het attribuut “weather = sunny” beschouwen, heeft het 1 “ja” en 2 “nee” van de 3 monsters totaal. Daarom is de kans op de categorie “Ja” 1/3, en het is 2/3 voor de categorie “Nee”. We kunnen dan eenvoudig de Gini-coëfficiënt voor alle van hen als volgt berekenen.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.