Get your Decision Tree Model Moving by CART

Gini Impurity — egy másik kritérium a csomópont felosztásához egy döntési fában

mint az egyik legnépszerűbb klasszikus gépi tanulási algoritmus, a döntési fa sokkal intuitívabb, mint a többiek a magyarázhatósága miatt. Korábbi cikkeimben bemutattam az ID3 és C4.5 algoritmusokat a döntési fa modellek felépítéséhez.

döntési fa alapjai és ID3 algoritmus

ID3 hátrányok és C4.5 algoritmus

ebben a cikkben még egy Cart nevű algoritmust mutatok be egy döntési fa modell felépítéséhez, amely szintén valószínűleg a leggyakrabban használt. BTW, ez az alapértelmezett algoritmus, amikor a scikit-Learn könyvtárat használja a döntési fa osztályozóhoz.

a CART algoritmus az osztályozási és regressziós fák rövidítése. Ezt találta Breiman et al. 1984-ben .

általában nagyon hasonlít a C4-hez.5, de a következő fő jellemzőkkel rendelkeznek:

az Általános fák helyett, amelyeknek több ága lehet, A CART bináris fát használ, amelynek minden csomópontból csak két ága van.
CART használja Gini szennyeződés, mint a kritérium, hogy osztott csomópont, nem Információ nyereség.
a CART támogatja a numerikus célváltozókat, amelyek lehetővé teszik, hogy regressziós fává váljon, amely előrejelzi a folyamatos értékeket.

ez a cikk a kosárra, mint osztályozási fára összpontosít.

Gini szennyeződés

csakúgy, mint az ID3 és a C4.5 algoritmusok, amelyek az Információnyereségre támaszkodnak a csomópontok felosztásának kritériumaként, a CART algoritmus egy másik kritériumot, a Gini-t használja a csomópontok felosztására.

ha valaha is tanult közgazdaságtant, ismernie kell a Gini indexet, amely a nemzet vagy bármely más embercsoporton belüli jövedelmi vagy vagyoni egyenlőtlenséget jelzi .

a CART algoritmusban intuitív módon használja a Gini együtthatót hasonló célra. Vagyis a nagyobb Gini-együttható a csomópont nagyobb szennyeződését jelenti. Hasonlóan az ID3-hoz és a C4.5-höz, amely az Információnyereséget használja a nagyobb bizonytalanságú csomópont kiválasztásához, a Gini-együttható irányítja a CART algoritmust, hogy megtalálja a nagyobb bizonytalanságú csomópontot (azaz szennyeződést), majd felosztja.

a Gini-együttható képlete viszonylag egyszerűbb, mint a másik két döntési fa algoritmusában használt Információnyereség és Információnyereség Arány. Ez a következőképpen jelenik meg.

p (Ck / t)annak a valószínűsége, hogy egy csomópont t a Ck kategória.
a T csomópont Gini-együtthatója 1 mínusz az összes kategória valószínűségének összege.

ne félj a képlettől. Vegyünk egy példát annak bemutatására. Ígérem, nem nehéz megérteni.

az alábbi példát használták az összes többi cikkben, amelyet a döntési fáról írtam.

tegyük fel, hogy el akarjuk indítani a döntési fát az “időjárás” funkció használatával. Ezután ki kell számolnunk a Gini-együtthatókat a feltételeire. Koncentráljunk az időjárási tulajdonságra és az eredményekre, amelyeket az alábbi táblázatok mutatnak.

nagyon könnyű kiszámítani a P(Ck|t) valószínűséget. Például, ha figyelembe vesszük az “időjárás = napos” attribútumot, akkor 1 “igen” és 2 “nem” van a 3 mintából. Ezért az “igen” kategória valószínűsége 1/3, a “nem”Kategória esetében pedig 2/3. Ezután könnyen kiszámíthatjuk a Gini-együtthatót mindegyikre az alábbiak szerint.

Gini Impurity — egy másik kritérium a csomópont felosztásához egy döntési fában

Gini szennyeződés

Vélemény, hozzászólás? Kilépés a válaszból