ただのメモ

他の人に見せても良い方のメモ

Topological data解析に入門する

こちらの動画をまとめる。

  • 「トポロジカルデータ解析:理論と応用」
  • ホモロジーを計算でやろう、という流れから。

閑話休題ホモロジーとは、という話。

まずはこちらの記事を見る。

  • トポロジー位相幾何学位相空間(図形)の分類を目指す。ある図形を連続的な変形を施したものは、もとの図形と同一視される。コップはドーナツ。
  • どんなに頑張ってもAからBには変形出来ない、なら、違う図形。でも出来ない(やってない)ことの証明は難しい。そこで、不変量が出てくる。不変量が違うなら、大元も違うよね、と言う論理。
  • 位相空間に対して計算される不変量を、位相不変量という。その中でも(要素)、ホモロジーがある。ホモロジーは位相不変量の1種
  • ホモロジー位相空間Aの上の、ベクトル空間。「穴」の数が、ホモロジーのベクトル空間の次元となる。

次に、こちらのWikiを見る。

ここで一旦戻ってくる。

  • データの形。膨大なデータ。データの潜在価値の抽出。(材料構造データ、3次元画像データ)。機能と構造が関わるので、幾何学的配置が知りたい。形に関する特徴量から、相関などを見る。「データの形に注目した数学的解析」
  • Topological Data Analysis。材料科学、脳科学生命科学、情報通信。ビッグデータ
  • Persistent Homology。パーシステント図。
  • Mapper。遺伝子発現データ。
  • 空間点データの扱い方。空間的データの「穴」を捉えたい。でも、点は離散的な対象。点を適当な半径の球体で近似する。ここで、半径は、データの解像度に対応。(ぼやけ)。穴は球の和集合の作る穴。
  • 入力空間点データの多面体表現。 B_r(x) = \{y \in \mathbb{R} :||y-x|| \leqq r \}は球体。チェック複体 C(X, r) = \{ |i_0 \cdots  i_k|: \bigcap_{j=0}^{k} B_r(x_{i_j}) \neq 0\}で定まる多面体。
  • 脈体定理(Nerve Theorem) \bigcup_{x\in X} B_r(x) \cong C(X, r)。切り貼りしない連続変形でうつり合える(これをホモトピー同値という)。点列や点の配置を、計算機で扱いやすい多面体に移せる。センサーの被覆領域。
  • ホモロジー幾何学的対象の「穴」をベクトル空間で表示する道具。0次ホモロジーは連結成分、1次ホモロジーはリングの数。2次ホモロジーは空洞の数。q次ホモロジーはq次元の「穴」の数に対応する。 H_q(X) = K^{\beta_q} ただしKは体。
  • ホモロジー線形写像。包含関係が成り立てば、線形写像に対応する。片方の基底が、維持されるか、潰れるか。ホモロジーの列と、その間の線形写像。これは、区間分解が成り立つ。(包含関係が連続して成り立つから、区間に着いての歴史(生成から消滅まで)が分かる)区間分解は、穴のつながり具合を表現する。
  • 直観的説明。解像度を変えて、「穴」を発生させ、消滅させ、その歴史を特徴量にする。パーシステント図構成法。穴の発生の半径と穴の消滅時の半径を2つのパラメータとして、得られ、プロット出来る。
  • 数学的な定義。位相空間のフィルトレーション、を入力とする。パーシステント。ベクトル空間と線形写像の列。これをパーシステントホモロジーという。構造定理が成立する。直和分解(区間分解) H_l(X) \simeq \bigoplus_{i=1}^s I[b_i, d_i]
  • グレースケール画像や2値画像にも使える。
  • 機械学習の手法を使う。Quiverや多元環の理論から考える。パーシステント図の極限の振る舞いなどもある。機械学習ではそのパーシステント図をベクトル化したい。非線形カーネルにして、機械学習をする。
  • パーシステント・イメージ。ヒストグラムの各点をガウス分布として扱う(隣同士の関係を抽出するため)、対角線からの距離に応じた重みを加える。
  • Mapper。複雑な形のデータの形を抽出するトポロジカルデータ解析手法。高次元データを扱いやすい。ただし粗い特徴づけ方。フィルター関数で色づけして、被覆で分割し、グラフにする。
  • フィルター関数は、高次元空間Xからk次元空間に落とし込む(PCAとかMDS)
  • 被覆。各カバーリングを、データに戻してクラスタリングするのと、カバーリングクラスタリング。そして、Overlapしていたので、そこを上手く繋ぐとグラフになる。