latent Dirichlet allocation

訳あって、腸内細菌叢に関するこちらの文献に出会した。

www.nature.com

 

 

Latent Dirichlet Allocationについて読み進める。

こちらの資料

 

腸内細菌叢のゲノム解析において、16rRNA領域の情報を使って、各菌種の組成に関する考察を行う。

 

ここで、16SrRNAデータは、それぞれの菌種が、各々の個体の中でいくつ検出されたか、というデータである。

離散的な値をとる多変量データというべきか。

このデータを解析するとに、潜在ディリクレ配分モデルなどが使われる。

 

これ以降は、同一個体に対して、複数回測定した16SrRNAデータに対する、LDAモデルについての説明をする。

 

LDAは、自然言語処理の界隈で使われている手法である。

 

手法は、大体以下の通りである。

文章が複数ある。

文章の単語にはトピックなる上位の概念がある。

トピックの分布から、トピックがサンプリングされる。

そして、トピックを条件付けした単語の分布から、単語がサンプリングされる。

 

ここで、観測されるのは、単語(の列)である。

トピックー単語分布を推定していく。

 

腸内細菌の場合は、以下のような説明がなされる。

細菌と、それの上位の概念のトピックがある。

各個体のトピック分布を用意する。

トピックをサンプリングする。

トピックによって条件付けされた細菌分布を用意して、それから菌種をサンプリングする。

こうして、ある個体のk番目の細菌カウントが得られる。

これは、ある文章のk番目の単語カウントが得られる、ということと対応している。

 

自然言語処理と、腸内細菌叢解析の類似性が見られる。(面白い)

 

変分ベイズ法を使用して、ベイズ更新をしている。

 

LDAについては、こちらの記事がわかりやすい。

この後は、時系列データに関する解析手法について述べているが、今度にする。