Get Your Decision Tree Model Moving by CART

gini — epäpuhtaus-toinen kriteeri jakaa solmu päätöksentekopuussa

yhtenä suosituimmista klassisista koneoppimisalgoritmeista Ratkaisupuu on paljon muita intuitiivisempi selitettävyytensä vuoksi. Aiemmissa artikkeleissani olen esitellyt ID3 – ja C4.5-algoritmit Päätöksentekopuumallien rakentamiseen.

  • päätöksenteon perusteet ja ID3-algoritmi
  • ID3 haittoja ja C4.5 algoritmi

tässä artikkelissa esittelen vielä yhden algoritmin nimeltä CART Päätöksentekopuumallin rakentamiseksi, joka on myös todennäköisesti yleisimmin käytetty. Btw, se on oletusalgoritmi, kun käytät Scikit-Learn-kirjastoa Päätöksentekopuun Luokittelijalle.

Photo by 683440 on

CART Algorithm on lyhenne sanoista Classification And Regression Trees. Sen keksivät breiman et al. vuonna 1984 .

se on yleensä hyvin samankaltainen kuin C4.5, mutta on seuraavat tärkeimmät ominaisuudet:

  1. yleisten puiden sijaan, joissa voi olla useita haaroja, CART käyttää binääripuuta, jossa on vain kaksi haaraa kustakin solmusta.
  2. CART käytä solmun jakamisen kriteerinä Gini-epäpuhtautta, Ei Tiedonlisäystä.
  3. CART tukee numeerisia tavoitemuuttujia, mikä mahdollistaa itsensä Regressiopuuksi, joka ennustaa jatkuvia arvoja.

tässä artikkelissa käsitellään kärryjä Luokituspuuna.

Gini-epäpuhtaus

Photo by qimono on

aivan kuten ID3 – ja C4.5-algoritmit, jotka tukeutuvat tiedonsaantiin solmujen jakamisen kriteerinä, CART-algoritmi käyttää toista kriteeriä nimeltä Gini solmujen jakamiseen.

jos on joskus oppinut taloustiedettä, on tunnettava gini-indeksi, joka kertoo tuloeroista tai varallisuuseroista kansakunnan tai minkä tahansa muun ihmisryhmän sisällä .

CART-algoritmissa gini-kerrointa käytetään intuitiivisesti samaan tarkoitukseen. Toisin sanoen suurempi Gini-kerroin tarkoittaa solmun suurempaa epäpuhtautta. Kuten ID3 ja C4.5 käyttämällä Information Gain valita solmu enemmän epävarmuutta, Gini kerroin ohjaa CART algoritmi löytää solmu suurempi epävarmuus (eli epäpuhtaus) ja sitten jakaa sen.

gini-kertoimen kaava on suhteellisesti yksinkertaisempi kuin kahden muun Ratkaisupuualgoritmin käyttämä Informaatiovoitto-ja Informaatiovoittosuhde. Se on esitetty seuraavasti.

  • p (Ck|t) on todennäköisyys, että solmu t on kategoria Ck.
  • solmun t Gini-kerroin on 1 miinus kaikkien kategorioiden todennäköisyyksien summa.

Älä säikähdä kaavaa. Otetaan esimerkki sen osoittamiseksi. Lupaan, ettei sitä ole vaikea ymmärtää.

alla olevaa esimerkkiä on käytetty kaikissa muissa artikkeleissa, joita olen kirjoittanut Ratkaisupuusta.

Oletetaan, että haluamme aloittaa Ratkaisupuun halkaisemalla ”sää” – ominaisuuden avulla. Sitten meidän on laskettava gini-kertoimet sen ehdoille. Keskitytään sää attribuuttiin ja tuloksiin, jotka on esitetty alla olevissa taulukoissa.

todennäköisyys p(Ck|t) on melko helppo laskea. Jos esimerkiksi ajatellaan määritettä” Sää = aurinkoinen”, siinä on 1″ Kyllä ”ja 2″ Ei ” kolmesta näytteestä täysin. Näin ollen kategorian ”Kyllä” todennäköisyys on 1/3, ja kategorian ”ei”todennäköisyys on 2/3. Voimme sitten helposti laskea gini-kertoimen kaikille niille seuraavasti.

Vastaa

Sähköpostiosoitettasi ei julkaista.