ジニ係数

経済学だけでなく最適化など色々なところで顔を出すジニ係数ですが、ウィキペディア*1によるとローレンツ曲線を参照せずにジニ係数を定義すると、

{ \displaystyle G= \frac{1}{n} \left( n+1-2 \left( \frac{ \sum_{i}^{n} \left( n+1-i \right) y_i}{ \sum_{i=1}^{n} y_i}\right) \right) }

とあって求め方も色々あるようですが、一番簡単そうな台形の面積を使って確認してみました。

 

ローレンツ曲線の上側、下側の面積をA、Bとすると、A+B=0.5より

{ \displaystyle G= \frac{A}{A+B} =2A=1-2B }

ですので、Bの面積を求めればよいですね。

 

今非負の離散量{ \displaystyle y_i \geqq 0}をn個観測しているとします。

また、

 { \displaystyle S =\sum_{i=1}^{n} y_i }

とすれば、

 { \displaystyle 1=\sum_{i=1}^{n} \frac{y_i}{S}  }

ですね。

 

Bは高さ{ \displaystyle \frac{1}{n}  }の台形が横にn個並んでいることになるので、その面積の合計として、

  { \displaystyle B =  \frac{y_1}{2nS} + \frac{ y_1 + \left(y_1+y_2\right) } {2nS} + \frac{ \left(y_1+y_2\right) + \left(y_1+y_2+y_3\right) }{2nS}+... }

 { \displaystyle +\frac{\left(y_1+y_2...+y_{n-1}\right) + \left(y_1+y_2+...+y_n\right)}{2nS}  }

 { \displaystyle = \frac{2y_1+ 2 \left(y_1+y_2 \right)+... +2 \left(y_1+y_2+...+y_{n-1}\right)+\sum_{i=1}^{n} y_i}{2nS} } 

 { \displaystyle = \frac{y_1+  \left(y_1+y_2 \right)+... + \left(y_1+y_2+...+y_{n-1}\right)+\sum_{i=1}^{n} y_i-\frac{1}{2}\sum_{i=1}^{n} y_i }{nS} } 

 { \displaystyle = \frac{ ny_1+  \left( n-1 \right) y_2 + \left( n-2 \right) y_3+... + 2y_{n-1} + y_n-\frac{1}{2}S }{nS} } 

 { \displaystyle = \frac{ \sum_{i=1}^{n} \left( n+1-i \right) y_i }{nS} -\frac{1}{2n} } 

となります。これを、

{ \displaystyle G=1-2B }

に代入すると、

{ \displaystyle G=1- 2\left( \frac{ \sum_{i=1}^{n} \left( n+1-i \right) y_i }{nS} -\frac{1}{2n} \right) =1-  \frac{ 2\sum_{i=1}^{n} \left( n+1-i \right) y_i }{n \sum_{i=1}^{n} y_i} +\frac{1}{n}  }

{ \displaystyle = \frac{1}{n} \left( n+1-2 \left( \frac{ \sum_{i=1}^{n} \left( n+1-i \right) y_i}{ \sum_{i=1}^{n} y_i}\right) \right) }

ですね。

これを整理すると、

{ \displaystyle G=\frac{2\sum_{i=1}^{n} iy_i}{n\sum_{i=1}^{n} y_i} - \frac{n+1}{n}  }

こんな感じですね。