få din Beslutsträdsmodell att flytta med vagn

Gini orenhet-ett annat kriterium för att dela nod i ett beslutsträd

som en av de mest populära klassiska maskininlärningsalgoritm är beslutsträdet mycket mer intuitivt än de andra för dess förklarbarhet. I mina tidigare artiklar har jag introducerat ID3 – och C4.5-algoritmerna för att konstruera Beslutsträdmodeller.

  • grunderna för beslutsträd och ID3-algoritm
  • ID3 nackdelar och C4.5 algoritm

i den här artikeln presenterar jag ytterligare en algoritm som heter CART för att bygga en Beslutsträdmodell, som också är den vanligaste. BTW, det är standardalgoritmen när du använder Scikit-Learn-biblioteket för en Beslutsträdklassificerare.

foto av 683440 på

CART algoritm är en förkortning av klassificering och Regression träd. Det uppfanns av Breiman et al. 1984 .

det är i allmänhet mycket lik C4.5, men har följande viktiga egenskaper:

  1. i stället för allmänna träd som kan ha flera grenar använder CART binary tree, som bara har två grenar från varje nod.
  2. CART använd Gini orenhet som kriterium för att dela nod, inte Informationsvinst.
  3. CART stöder numeriska målvariabler, vilket gör det möjligt att bli ett Regressionsträd som förutsäger kontinuerliga värden.

denna artikel kommer att fokusera på vagn som Klassificeringsträd.

Gini orenhet

foto av qimono på

precis som ID3-och C4.5-algoritmerna som är beroende av Informationsvinst som kriterium för att dela noder, använder CART-algoritmen ett annat kriterium som kallas Gini för att dela noderna.

om du någonsin har lärt dig Ekonomi måste du vara bekant med Gini-indexet, vilket indikerar inkomstskillnad eller ojämlikhet i rikedom inom en nation eller någon annan grupp människor .

i CART-algoritmen använder den intuitivt Gini-koefficienten för ett liknande ändamål. Det vill säga den större Gini-koefficienten betyder nodens större orenhet. I likhet med ID3 och C4.5 med hjälp av Informationsförstärkning för att välja noden med mer osäkerhet, kommer Gini-koefficienten att styra CART-algoritmen för att hitta noden med större osäkerhet (dvs. orenhet) och sedan dela den.

formeln för Gini-koefficienten är relativt enklare än Informationsvinsten och Informationsvinstförhållandet som vi har använt i de andra två Beslutsträdsalgoritmen. Det visas enligt följande.

  • p (Ck / t) är sannolikheten för att en nod t är kategorin Ck.
  • Gini-koefficienten för noden t är 1 minus summan av sannolikheten för alla kategorier.

var inte rädd för formeln. Låt oss ta ett exempel för att visa det. Jag lovar att det inte är svårt att förstå.

exemplet nedan har använts i alla andra artiklar som jag har skrivit om beslutsträd.

Antag att vi vill starta beslutsträdet genom att dela med funktionen ”väder”. Då måste vi beräkna Gini-koefficienterna för dess förhållanden. Låt oss fokusera på väderattributet och resultaten, som visas i tabellerna nedan.

det är ganska lätt att beräkna sannolikheten p(Ck|t). Om vi till exempel betraktar attributet ”väder = soligt”, har det 1 ”Ja” och 2 ”Nej” av 3 prover helt. Därför är sannolikheten för kategorin ”ja” 1/3 och den är 2/3 för kategorin ”Nej”. Vi kan sedan enkelt beräkna Gini-koefficienten för dem alla enligt följande.

Lämna ett svar

Din e-postadress kommer inte publiceras.