Haga que su Modelo de Árbol de Decisiones se mueva por CARRO

Impureza de Gini: otro criterio para dividir el nodo en un árbol de decisiones

Como uno de los algoritmos clásicos de aprendizaje automático más populares, el Árbol de decisiones es mucho más intuitivo que los demás por su explicabilidad. En mis artículos anteriores, he introducido los algoritmos ID3 y C4. 5 para construir modelos de Árbol de Decisión.

Conceptos básicos del Árbol de Decisiones y Algoritmo ID3

Inconvenientes de ID3 y C4.Algoritmo 5

En este artículo, presentaré un algoritmo más llamado CART para construir un modelo de Árbol de decisiones, que también es probablemente el más utilizado. Por cierto, es el algoritmo predeterminado cuando se utiliza la biblioteca Scikit-Learn para un Clasificador de Árbol de Decisiones.

CARRITO de Algoritmo es una abreviatura de Árboles de Clasificación Y Regresión. Fue inventado por Breiman et al. en 1984 .

Es generalmente muy similar a C4.5, pero tienen las siguientes características principales:

En lugar de árboles generales que podrían tener múltiples ramas, CART usa árbol binario, que tiene solo dos ramas de cada nodo.
CART utilice la impureza de Gini como criterio para dividir el nodo, no para obtener información.
El carrito admite variables de destino numéricas, lo que permite convertirse en un Árbol de regresión que predice valores continuos.

Este artículo se centrará en el CARRITO como Árbol de clasificación.

Impureza de Gini

Al igual que los algoritmos ID3 y C4.5 que se basan en la Ganancia de Información como criterio para dividir nodos, el algoritmo CART utiliza otro criterio llamado Gini para dividir los nodos.

Si alguna vez ha aprendido economía, debe estar familiarizado con el Índice de Gini, que indica la desigualdad de ingresos o la desigualdad de riqueza dentro de una nación o cualquier otro grupo de personas .

En el algoritmo de CARRO se utiliza intuitivamente el coeficiente de Gini para un propósito similar. Es decir, el coeficiente de Gini más grande significa la impureza más grande del nodo. De forma similar a ID3 y C4.5, utilizando la Ganancia de información para seleccionar el nodo con más incertidumbre, el coeficiente de Gini guiará al algoritmo de CART para encontrar el nodo con mayor incertidumbre (es decir, impureza) y luego dividirlo.

La fórmula del coeficiente de Gini es relativamente más simple que la Ganancia de Información y la Relación de Ganancia de Información que hemos utilizado en los otros dos algoritmos de Árbol de Decisión. Se muestra de la siguiente manera.

p(Ck|t) es la probabilidad de que un nodo t siendo t la categoría de Ck.
El coeficiente de Gini del nodo t es 1 menos la suma de la probabilidad de todas las categorías.

No se asuste por la fórmula. Tomemos un ejemplo para demostrarlo. Prometo que no es difícil de entender.

El siguiente ejemplo se ha utilizado en todos los demás artículos que he escrito sobre el Árbol de decisiones.

Supongamos que queremos empezar el Árbol de Decisión por separación mediante el «Clima» de la característica. Luego, necesitamos calcular los coeficientes de Gini para sus condiciones. Centrémonos en el atributo meteorológico y los resultados, que se muestran en las tablas a continuación.

es muy fácil calcular la probabilidad p(Ck|t). Por ejemplo, si consideramos el atributo «tiempo = soleado», tiene 1″ sí «y 2″ no » de 3 muestras en su totalidad. Por lo tanto, la probabilidad de la categoría «sí» es 1/3 y 2/3 de la categoría «no». Entonces podemos calcular fácilmente el coeficiente de Gini para todos ellos de la siguiente manera.

Impureza de Gini: otro criterio para dividir el nodo en un árbol de decisiones

Impureza de Gini

Deja una respuesta Cancelar la respuesta