Få Din Beslutningstremodell Som Beveger SEG med VOGN

Gini Urenhet-et annet kriterium for å dele node i et beslutningstre

Som en av de mest populære klassiske maskinlæringsalgoritmene, Er Beslutningstreet mye mer intuitivt enn de andre for sin forklarbarhet. I mine tidligere artikler har JEG introdusert ID3 og C4.5 algoritmer for å bygge Beslutningstremodeller.

  • Grunnleggende Beslutningstre Og ID3-Algoritme
  • ID3 Ulemper Og C4.5 Algoritme

i denne artikkelen vil jeg introdusere en algoritme kalt CART for å bygge En Beslutningstremodell, som også trolig er den mest brukte. BTW, det er standardalgoritmen når du bruker Scikit-Learn-biblioteket for En Decision Tree Classifier.

Bilde av 683440 på

CART Algoritme er en forkortelse Av Klassifisering Og Regresjon Trær. Det ble oppfunnet Av Breiman et al. i 1984 .

Det er generelt veldig lik C4.5, men har følgende hovedkarakteristikker:

  1. I Stedet for generelle trær som kan ha flere grener, BRUKER CART binary tree, som bare har to grener fra hver knute.
  2. CART bruk Gini Urenhet som kriterium for å dele node, ikke Informasjon Gevinst.
  3. CART støtter numeriske målvariabler, som gjør det mulig å bli Et Regresjonstre som forutsier kontinuerlige verdier.

denne artikkelen vil fokusere PÅ HANDLEVOGN Som Et Klassifiseringstreet.

Gini Urenhet

Bilde av qimono på

AKKURAT SOM ID3 og C4.5 algoritmer som er avhengige Av Informasjon Gevinst som kriterium for å dele noder, GJØR CART algoritmen bruke et annet kriterium kalt Gini å dele nodene.

hvis du noen gang har lært økonomi, må Du være kjent Med Gini-Indeksen, som indikerer ulikhet i inntekt eller rikdom i en nasjon eller en annen gruppe mennesker .

I CART-algoritmen bruker den intuitivt gini-koeffisienten til et lignende formål. Det vil si at den større gini-koeffisienten betyr større urenhet av noden. I likhet MED ID3 Og C4.5 ved Hjelp Av Informasjonsgevinst for å velge noden med mer usikkerhet, vil gini-koeffisienten lede VOGNALGORITMEN for å finne noden med større usikkerhet (dvs. urenhet) og deretter dele den.

formelen For gini-koeffisienten er relativt enklere enn Informasjonsgevinsten og Informasjonsgevinst Som vi har brukt i de to Andre Beslutningstræralgoritmene. Det vises som følger.

  • p (Ck / t) er sannsynligheten for at en node t er kategorien Ck.
  • gini-koeffisienten til noden t er 1 minus summen av sannsynligheten for alle kategoriene.

ikke vær redd av formelen. La oss ta et eksempel for å demonstrere det. Jeg lover at det ikke er vanskelig å forstå.

eksemplet nedenfor har blitt brukt i alle de andre artiklene jeg har skrevet om Decision Tree.

Anta at vi vil starte Beslutningstreet ved å splitte ved hjelp av» Vær » – funksjonen. Deretter må Vi beregne gini-koeffisientene for forholdene. La oss fokusere på værattributtet og resultatene, som er vist i tabellene nedenfor.

det er ganske enkelt å beregne sannsynligheten p (Ck / t). For eksempel, hvis vi vurderer attributtet «vær = solfylt», har det 1″ ja «og 2″ nei » ut av 3 prøver helt. Derfor er sannsynligheten for kategorien » ja «1/3, og det er 2/3 for kategorien «nei». Vi kan da enkelt beregne gini-koeffisienten for dem alle som følger.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.