訳あって、腸内細菌叢に関するこちらの文献に出会した。
Latent Dirichlet Allocationについて読み進める。
腸内細菌叢のゲノム解析において、16rRNA領域の情報を使って、各菌種の組成に関する考察を行う。
ここで、16SrRNAデータは、それぞれの菌種が、各々の個体の中でいくつ検出されたか、というデータである。
離散的な値をとる多変量データというべきか。
このデータを解析するとに、潜在ディリクレ配分モデルなどが使われる。
これ以降は、同一個体に対して、複数回測定した16SrRNAデータに対する、LDAモデルについての説明をする。
LDAは、自然言語処理の界隈で使われている手法である。
手法は、大体以下の通りである。
文章が複数ある。
文章の単語にはトピックなる上位の概念がある。
トピックの分布から、トピックがサンプリングされる。
そして、トピックを条件付けした単語の分布から、単語がサンプリングされる。
ここで、観測されるのは、単語(の列)である。
トピックー単語分布を推定していく。
腸内細菌の場合は、以下のような説明がなされる。
細菌と、それの上位の概念のトピックがある。
各個体のトピック分布を用意する。
トピックをサンプリングする。
トピックによって条件付けされた細菌分布を用意して、それから菌種をサンプリングする。
こうして、ある個体のk番目の細菌カウントが得られる。
これは、ある文章のk番目の単語カウントが得られる、ということと対応している。
自然言語処理と、腸内細菌叢解析の類似性が見られる。(面白い)
LDAについては、こちらの記事がわかりやすい。
この後は、時系列データに関する解析手法について述べているが、今度にする。