obțineți modelul arborelui de decizie în mișcare cu coșul

impuritatea Gini — un alt criteriu pentru împărțirea nodului într-un arbore de decizie

ca unul dintre cele mai populare algoritmi clasici de învățare automată, arborele de decizie este mult mai intuitiv decât celelalte pentru explicabilitatea sa. În articolele mele anterioare, am introdus algoritmii ID3 și C4.5 pentru construirea modelelor arborelui decizional.

  • elementele de bază ale arborelui de decizie și algoritmul ID3
  • dezavantaje ID3 și C4.Algoritmul 5

în acest articol, voi introduce încă un algoritm numit CART pentru construirea unui model de arbore de decizie, care este, de asemenea, probabil cel mai frecvent utilizat. BTW, acesta este algoritmul implicit atunci când utilizați biblioteca Scikit-Learn pentru un clasificator arbore de decizie.

fotografie de 683440 pe

algoritmul CART este o abreviere a copacilor de clasificare și regresie. A fost inventat de Breiman și colab. în 1984 .

este în general foarte similar cu C4.5, dar au următoarele caracteristici majore:

  1. mai degrabă decât copacii generali care ar putea avea mai multe ramuri, CART folosește arborele binar, care are doar două ramuri din fiecare nod.
  2. CART folosi Gini impuritate ca criteriu pentru a împărți nod, nu câștig de informații.
  3. CART acceptă variabile țintă numerice, care își permite să devină un arbore de regresie care prezice valori continue.

acest articol se va concentra pe CART ca un arbore de clasificare.

impuritatea Gini

fotografie de qimono pe

la fel ca algoritmii ID3 și C4.5 care se bazează pe câștigul de informații ca criteriu pentru împărțirea nodurilor, algoritmul CART folosește un alt criteriu numit Gini pentru a împărți nodurile.

dacă ați învățat vreodată economia, trebuie să fiți familiarizați cu indicele Gini, care indică inegalitatea veniturilor sau inegalitatea bogăției în cadrul unei națiuni sau al oricărui alt grup de oameni .

în algoritmul CART se utilizează intuitiv coeficientul Gini pentru un scop similar. Adică, coeficientul Gini mai mare înseamnă impuritatea mai mare a nodului. Similar cu ID3 și C4.5 folosind câștigul de informații pentru a selecta nodul cu mai multă incertitudine, coeficientul Gini va ghida algoritmul CART pentru a găsi nodul cu incertitudine mai mare (adică impuritate) și apoi împărțiți-l.

formula coeficientului Gini este relativ mai simplă decât câștigul de informații și raportul de câștig de informații pe care l-am folosit în celelalte două algoritmul arborelui de decizie. Se arată după cum urmează.

  • p (Ck / t) este probabilitatea ca un nod t să fie categoria Ck.
  • coeficientul Gini al nodului t este 1 minus suma probabilității tuturor categoriilor.

nu vă speriați de formulă. Să luăm un exemplu pentru a demonstra acest lucru. Promit că nu este greu de înțeles.

exemplul de mai jos a fost folosit în toate celelalte articole pe care le-am scris despre arborele de decizie.

să presupunem că dorim să pornim arborele de decizie prin divizare folosind funcția” vreme”. Apoi, trebuie să calculăm coeficienții Gini pentru condițiile sale. Să ne concentrăm asupra atributului meteo și a rezultatelor, care este prezentat în tabelele de mai jos.

este destul de ușor să calculați probabilitatea p(Ck|t). De exemplu, dacă luăm în considerare atributul „weather = sunny”, acesta are 1 „da” și 2 „nu” din 3 eșantioane în totalitate. Prin urmare, probabilitatea categoriei „da” este de 1/3 și este de 2/3 pentru categoria „nu”. Apoi putem calcula cu ușurință coeficientul Gini pentru toate acestea după cum urmează.

Lasă un răspuns

Adresa ta de email nu va fi publicată.