Ottieni il tuo modello di albero decisionale in movimento per CARRELLO

Gini Impurity — un altro criterio per dividere il nodo in un albero decisionale

Come uno dei più popolari algoritmi di apprendimento automatico classico, l’albero decisionale è molto più intuitivo degli altri per la sua spiegabilità. Nei miei articoli precedenti, ho introdotto gli algoritmi ID3 e C4.5 per la costruzione di modelli ad albero decisionale.

  • Basi dell’albero decisionale e algoritmo ID3
  • Svantaggi ID3 e C4.5 Algoritmo

In questo articolo, introdurrò un altro algoritmo chiamato CART per la costruzione di un modello ad albero decisionale, che è anche probabilmente il più comunemente usato. A proposito, è l’algoritmo predefinito quando si utilizza la libreria Scikit-Learn per un classificatore ad albero decisionale.

Foto di 683440 su

CARRELLO Algoritmo è un’abbreviazione di alberi di classificazione e regressione. È stato inventato da Breiman et al. nel 1984 .

È generalmente molto simile a C4.5, ma hanno le seguenti caratteristiche principali:

  1. Piuttosto che alberi generali che potrebbero avere più rami, CART utilizza l’albero binario, che ha solo due rami da ciascun nodo.
  2. CARRELLO usa l’impurità Gini come criterio per dividere il nodo, non il guadagno di informazioni.
  3. CART supporta le variabili di destinazione numeriche, che consente di diventare un albero di regressione che predice valori continui.

Questo articolo si concentrerà sul CARRELLO come albero di classificazione.

Gini Impurità

Foto di qimono su

Proprio come ID3 e C4.5 algoritmi che si basano su Informazioni di Guadagno come criterio per dividere i nodi, il CARRELLO algoritmo fa uso di un altro criterio chiamato Coefficiente di dividere i nodi.

Se hai mai imparato l’economia, devi avere familiarità con l’indice Gini, che indica la disuguaglianza di reddito o la disuguaglianza di ricchezza all’interno di una nazione o di qualsiasi altro gruppo di persone .

Nell’algoritmo del CARRELLO utilizza intuitivamente il coefficiente di Gini per uno scopo simile. Cioè, il coefficiente Gini più grande significa la maggiore impurità del nodo. Simile a ID3 e C4.5 utilizzando il guadagno di informazioni per selezionare il nodo con più incertezza, il coefficiente di Gini guiderà l’algoritmo del CARRELLO per trovare il nodo con maggiore incertezza (cioè impurità) e quindi dividerlo.

La formula del coefficiente di Gini è relativamente più semplice del guadagno di informazioni e del rapporto di guadagno di informazioni che abbiamo usato negli altri due algoritmi dell’albero delle decisioni. È mostrato come segue.

  • p (Ck|t) è la probabilità che un nodo t sia la categoria Ck.
  • Il coefficiente di Gini del nodo t è 1 meno la somma della probabilità di tutte le categorie.

Non essere spaventato dalla formula. Facciamo un esempio per dimostrarlo. Prometto che non è difficile da capire.

L’esempio seguente è stato utilizzato in tutti gli altri articoli che ho scritto su Decision Tree.

Supponiamo di voler avviare l’albero delle decisioni dividendo usando la funzione “Meteo”. Quindi, dobbiamo calcolare i coefficienti di Gini per le sue condizioni. Concentriamoci sull’attributo meteo e sui risultati, che viene mostrato nelle tabelle seguenti.

È abbastanza facile calcolare la probabilità p (Ck|t). Ad esempio, se consideriamo l’attributo “weather = sunny”, ha 1 “sì” e 2 “no” su 3 campioni totalmente. Pertanto, la probabilità della categoria ” sì “è 1/3, ed è 2/3 per la categoria”no”. Possiamo quindi calcolare facilmente il coefficiente di Gini per tutti loro come segue.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.