Gini coefficient, DBSCAN

集団における不平等さの指標。

 

全員同じである時、0

一人の大富豪と、他みんなの一文無しである時、1とする。

 

ローレンツ曲線

 L(F) = \frac{\int^{F}_{0}x(F^{'})dF^{'}}{\mu}

ja.wikipedia.org

 

均等分配線とローレンツ曲線の間の面積の二倍がジニ係数

ja.wikipedia.org

 

genomebiology.biomedcentral.com

ジニ係数を遺伝子ごとに計算して、

ジニ係数を正規化して、高いジニ係数の遺伝子を取り出す。

 

これによって、均等分配でない、偏りのある遺伝子の集合を得る。クラスタリングするということは、違いを得ることであるので、この操作は欲しいものだろう。

 

そして、DBSCANをする。

shoblog.iiyan.net

DBSCANとは、Density Based Spatial Clustering of Applications with Noiseの略であり、文字通り密度を重視したクラスタリング手法である。

 

細かく見てみると、

ランダムに点を選び、それぞれの点を中心として、ある半径の超球を描く。

その超球の中にある点を数える。

その値がある閾値を超えたら、それら全てを同じクラスに割り振る。

そうでないなら、その中心をノイズ点とする。

 

これを繰り返して、全ての点にクラスかノイズ点の判定が下ったら終了とする。

 

 

クラスタ数を指定しなくて良いし、ノイズに対して強い。

密度が異なるデータには厳しいので、kNNを構成する手法の方が嬉しいこともある。

 

 

t-SNEで次元圧縮をして、プロットする。