få din Beslutningstræmodel i bevægelse efter vogn

Gini Urenhed — et andet kriterium for at opdele node i et beslutningstræ

som en af de mest populære klassiske maskinlæringsalgoritmer er beslutningstræet meget mere intuitivt end de andre for dets forklarbarhed. I mine tidligere artikler har jeg introduceret ID3-og C4.5-algoritmerne til konstruktion af Beslutningstræmodeller.

  • Grundlæggende om beslutningstræ og ID3-algoritme
  • ID3 ulemper og C4.5 algoritme

i denne artikel introducerer jeg endnu en algoritme kaldet CART til opbygning af en Beslutningstræmodel, som også sandsynligvis er den mest anvendte. Det er standardalgoritmen, når du bruger Scikit-Learn-biblioteket til en Beslutningstræklassifikator.

foto af 683440 på

CART algoritme er en forkortelse af klassificering og Regression træer. Det blev opfundet af Breiman et al. i 1984 .

det ligner generelt meget C4.5, men har følgende vigtige egenskaber:

  1. i stedet for generelle træer, der kunne have flere grene, bruger CART binært træ, som kun har to grene fra hver knude.
  2. vogn brug Gini urenhed som kriterium for at opdele node, ikke Information gevinst.
  3. CART understøtter numeriske målvariabler, som gør det muligt at blive et Regressionstræ, der forudsiger kontinuerlige værdier.

denne artikel vil fokusere på CART som en klassificering træ.

Gini Urenhed

ligesom ID3-og C4.5-algoritmerne, der er afhængige af Informationsgevinst som kriterium for at opdele noder, bruger CART-algoritmen et andet kriterium kaldet Gini til at opdele knuderne.

hvis du nogensinde har lært økonomi, skal du være bekendt med Gini-indekset, som angiver indkomstulighed eller formueulighed inden for en nation eller enhver anden gruppe mennesker .

i CART-algoritmen bruger den intuitivt Gini-koefficienten til et lignende formål. Det vil sige, at den større Gini-koefficient betyder den større urenhed af knuden. I lighed med ID3 og C4.5 ved hjælp af Informationsgevinst til at vælge noden med mere usikkerhed, vil Gini-koefficienten lede CART-algoritmen til at finde noden med større usikkerhed (dvs.Urenhed) og derefter opdele den.

formlen for Gini-koefficienten er relativt enklere end Informationsforøgelsen og Informationsforøgelsesforholdet, som vi har brugt i de to andre Beslutningstræalgoritmer. Det er vist som følger.

  • p (Ck / t) er sandsynligheden for, at en node t er kategorien Ck.
  • Gini-koefficienten for noden t er 1 minus summen af sandsynligheden for alle kategorier.

vær ikke bange for formlen. Lad os tage et eksempel for at demonstrere det. Jeg lover, at det ikke er svært at forstå.

eksemplet nedenfor er blevet brugt i alle de andre artikler, som jeg har skrevet om Decision Tree.

Antag, at vi vil starte beslutningstræet ved at opdele ved hjælp af funktionen “vejr”. Derefter skal vi beregne Gini-koefficienterne for dens forhold. Lad os fokusere på vejrattributten og resultaterne, som vises i nedenstående tabeller.

det er ret nemt at beregne sandsynligheden p(Ck|t). For eksempel, hvis vi betragter attributten “vejr = solrig”, har den 1 “ja” og 2 “Nej” ud af 3 prøver helt. Derfor er sandsynligheden for kategorien “Ja” 1/3, og den er 2/3 for kategorien “Nej”. Vi kan så nemt beregne Gini-koefficienten for dem alle som følger.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.