Get Your Decision Tree Model Moving by CART

Gini Impurity-another criterion to split node in a decision tree

As one of the most popular classic machine learning algorithm, the Decision Tree is much more intuitive than the others for its explainability. Em meus artigos anteriores, eu introduzi os algoritmos ID3 E C4. 5 para a construção de modelos de árvore de decisão.

Bases Da Árvore de decisão e algoritmo ID3

desvantagens ID3 E C4.5 algoritmo

neste artigo, vou introduzir mais um algoritmo chamado CART para a construção de um modelo de árvore de decisão, que também é provavelmente o mais comumente usado. BTW, é o algoritmo padrão quando você usa a Biblioteca Scikit-Learn para classificar uma árvore de decisão.

CARRINHO de Algoritmo é uma abreviação de Árvores de Classificação E Regressão. Foi inventado por Breiman et al. em 1984 .

é geralmente muito semelhante ao C4.5, mas têm as seguintes características principais:

ao invés de árvores gerais que poderiam ter múltiplos ramos, CART faz uso de árvore binária, que tem apenas dois ramos de cada nó.
CART use Gini Impurity as the criterion to split node, not Information Gain.
CART suporta variáveis-alvo numéricas, que se torna uma árvore de regressão que prevê valores contínuos.

este artigo centrar-se-á no CART como Árvore de classificação.

Gini Impureza

assim como o ID3 e C4.5 algoritmos que dependem de Informações Ganho como critério para dividir a nós, o CARRINHO algoritmo faz uso de outro critério chamado de Gini para dividir os nós.

se você já aprendeu economia, você deve estar familiarizado com o índice Gini, que indica a desigualdade de renda ou desigualdade de riqueza dentro de uma nação ou qualquer outro grupo de pessoas .

no algoritmo CART é intuitivamente usado o coeficiente de Gini para uma finalidade similar. Isto é, o coeficiente Gini maior significa a impureza maior do nó. Semelhante ao ID3 E C4. 5 Usando ganho de informação para selecionar o nó com mais incerteza, o coeficiente de Gini irá guiar o algoritmo do CART para encontrar o nó com maior incerteza (ou seja, impureza) e, em seguida, dividi-lo.

a fórmula do coeficiente de Gini é relativamente mais simples do que o ganho de informação e a razão de ganho de informação que usamos nos outros dois algoritmos Da Árvore de decisão. É mostrado como segue.

p(Ck|t) é a probabilidade de um nó t sendo a categoria Ck.
o coeficiente de Gini do nó t é 1 menos a soma da probabilidade de todas as Categorias.

não se assuste pela fórmula. Tomemos um exemplo para demonstrá-lo. Prometo que não é difícil de entender.

o exemplo abaixo foi usado em todos os outros artigos que escrevi sobre Árvore de decisão.

Suponha que deseja iniciar a Árvore de Decisão dividindo usando o “Tempo” recurso. Então, precisamos calcular os coeficientes de Gini para suas condições. Vamos nos concentrar no atributo meteorológico e nos resultados, que são mostrados nas tabelas abaixo.

é muito fácil para calcular a probabilidade p(Ck|t). Por exemplo, se considerarmos o atributo “weather = sunny”, ele tem 1 “yes” e 2 “no” de 3 amostras totalmente. Portanto, a probabilidade da categoria “sim” é 1/3, e é 2/3 para a categoria “não”. Podemos então calcular facilmente o coeficiente de Gini para todos eles da seguinte forma.

Gini Impurity-another criterion to split node in a decision tree

Gini Impureza

Deixe uma resposta Cancelar resposta