エントロピーとジニ不純度の比較 - 元生技データサイエンティストのメモ帳

こんにちは、sue124です。
昔書いた「Python実践データ分析100本ノック」に関して書いた記事で、「決定木のモデル作成には平均情報量（エントロピー）を使っている」と書いたものの、書籍の中で使用している「sklearn.tree.DecisionTreeClassifier」のモジュールではCARTというアルゴリズムでジニ不純度を指標にして決定木を構築していることがわかったので、今回はエントロピーとジニ不純度の違いをまとめてみました。

決定木の基本的なことは以前書いた以下の記事を参照願います。

sue124.hatenablog.com

ノード $t$ 内でクラス $i$ （全 $c$ 個）に属するサンプル数を $n_{i}$ とするとクラス $i$ に属するサンプルの割合を以下のように書くとします。

${ \displaystyle p(i|t) = \frac{n_{i}}{n} }$

このとき、エントロピー、ジニ不純度の定義はそれぞれ以下の通りとなります。

＜エントロピー＞
${ \displaystyle I_{H} = -\sum_{i=1}^{c} p(i|t)\ log\ p(i|t) }$

＜ジニ不純度＞
${ \displaystyle I_{G} = 1 - \sum_{i=1}^{c}p(i|t)^{2} }$

ここで以下の場合を考えてみます。

ノード $t$ に単一のクラスしか入っていない場合（最も不純度が低い状態）

＜エントロピー＞
${ \displaystyle I_{H} = -\sum_{i=1}^{1}\frac{n}{n} \ log\ (\frac{n}{n}) = 0 }$

＜ジニ不純度＞
${ \displaystyle I_{G} = 1 - \sum_{i=1}^{1}(\frac{n}{n})^{2} = 0 }$

いずれの場合も0になります。

ノード $t$ の全てのサンプルが異なるクラスである場合（最も不純度が高い状態）

＜エントロピー＞
${ \displaystyle I_{H} = -\sum_{i=1}^{c}\frac{1}{c} \ log\ (\frac{1}{c}) = log\ c }$

＜ジニ不純度＞
${ \displaystyle I_{G} = 1 - \sum_{i=1}^{c}(\frac{1}{c})^{2} = 1 - \frac{1}{c} }$

それぞれの上限はクラス数 $c$ 次第。

ここで簡単の為にクラスが2個の場合を考え、片方のクラスのデータ数を $x$ とおくと、
＜エントロピー＞
${ \displaystyle I_{H}(x) = -\frac{x}{n}\ log\ \frac{x}{n} - \frac{n-x}{n}\ log\ \frac{n-x}{n} }$

＜ジニ不純度＞
${ \displaystyle I_{G}(x) = 1 - (\frac{x}{n})^{2} - (\frac{n-x}{n})^{2} = \frac{2nx-2x^{2}}{n^{2}} }$

これらを $x$ で微分すると、
＜エントロピー＞
${ \displaystyle \frac{d}{dx}I_{H}(x) = -\frac{2}{n}\ log\ \frac{x}{n} + \frac{2}{n}\ log\ \frac{n-x}{n} }$

＜ジニ不純度＞
${ \displaystyle \frac{d}{dx}I_{G}(x) = \frac{2-4x}{n^{2}} }$

これらから、ともに $0\leq x <\frac{1}{2}n$ で単調増加、 $\frac{1}{2} < x \leq n$ で単調減少となることがわかります。
$\frac{d}{dx}I_{H}(x)$ が $x=0,n$ で∞となるので、このエントロピーの方が $0,n$ 周辺での立ち上がりが急になりますね。

以上、エントロピーとジニ不純度の違いを比べてみました。
数式に若干の違いはあれど、表しているものの意味としては大差のない印象でした。