Gini不純物—意思決定ツリー内のノードを分割する別の基準
最も人気のある古典的な機械学習アルゴリズムの一つとして、意思決定ツリーは、その説明可能性のために他のものよりもはるかに直感的です。 以前の記事では、決定木モデルを構築するためのID3とC4.5アルゴリズムを紹介しました。
- 決定木の基礎とID3アルゴリズム
- ID3とC4。5アルゴリズム
この記事では、決定木モデルを構築するためのCARTと呼ばれるもう一つのアルゴリズムを紹介します。 ところで、決定木分類器にScikit-Learnライブラリを使用する場合、これはデフォルトのアルゴリズムです。
CARTアルゴリズムは分類木と回帰木の略語です。 それはBreiman et alによって発明されました。 1984年。
一般的にはC4と非常によく似ています。5つに、しかし次の主要な特徴があります:
- 複数の枝を持つことができる一般的な木ではなく、CARTは各ノードから二つの枝しか持たない二分木を使用します。
- CARTは、情報利得ではなく、ノードを分割する基準としてジニ不純物を使用します。
- CARTは数値目標変数をサポートしており、それ自体が連続値を予測する回帰木になることができます。
この記事では、分類ツリーとしてのCARTに焦点を当てます。
ジニ
上のqimonoによる写真ノードを分割する基準として情報利得に依存するID3およびC4.5アルゴリズムと同様に、CARTアルゴリズムはGiniと呼ばれる別の基準を使用してノードを分割する。
経済学を学んだことがあるなら、ある国や他の人々のグループ内の所得格差や富の不平等を示すジニ指数に精通している必要があります。
CARTアルゴリズムでは、同様の目的のために直感的にジニ係数を使用しています。 すなわち、ジニ係数が大きいほどノードの不純物が大きいことを意味する。 情報ゲインを使用して不確実性の高いノードを選択するID3およびC4.5と同様に、Gini係数はCARTアルゴリズムをガイドして、不確実性の高いノード(不純物)を見つけ、それを分割します。
ジニ係数の式は、他の二つの決定木アルゴリズムで使用した情報利得および情報利得比よりも比較的簡単です。 次のように示されている。
- p(Ck|t)は、ノードtがカテゴリCkである確率です。
- ノードtのジニ係数は、1からすべてのカテゴリの確率の合計を引いたものです。
式に怖がらないでください。 それを実証するための例を見てみましょう。 私はそれが理解することは困難ではないことを約束します。
以下の例は、私が決定木について書いた他のすべての記事で使用されています。
“Weather”機能を使用して分割して決定木を開始したいとします。 次に、その条件のGini係数を計算する必要があります。 以下の表に示すweather属性と結果に注目してみましょう。
確率p(Ck|t)を計算するのは非常に簡単です。 たとえば、属性”weather=sunny”を考えると、3つのサンプルのうち1つの”yes”と2つの”no”が完全にあります。 したがって、カテゴリ”はい”の確率は1/3であり、カテゴリ”いいえ”の確率は2/3です。 次のようにして、それらすべてのジニ係数を簡単に計算できます。