集団における不平等さの指標。
全員同じである時、0
一人の大富豪と、他みんなの一文無しである時、1とする。
ローレンツ曲線
genomebiology.biomedcentral.com
ジニ係数を遺伝子ごとに計算して、
これによって、均等分配でない、偏りのある遺伝子の集合を得る。クラスタリングするということは、違いを得ることであるので、この操作は欲しいものだろう。
そして、DBSCANをする。
DBSCANとは、Density Based Spatial Clustering of Applications with Noiseの略であり、文字通り密度を重視したクラスタリング手法である。
細かく見てみると、
ランダムに点を選び、それぞれの点を中心として、ある半径の超球を描く。
その超球の中にある点を数える。
その値がある閾値を超えたら、それら全てを同じクラスに割り振る。
そうでないなら、その中心をノイズ点とする。
これを繰り返して、全ての点にクラスかノイズ点の判定が下ったら終了とする。
クラスタ数を指定しなくて良いし、ノイズに対して強い。
密度が異なるデータには厳しいので、kNNを構成する手法の方が嬉しいこともある。
t-SNEで次元圧縮をして、プロットする。