こちらの動画をまとめる。
- 「トポロジカルデータ解析:理論と応用」
- ホモロジーを計算でやろう、という流れから。
まずはこちらの記事を見る。
- トポロジーは位相幾何学。位相空間(図形)の分類を目指す。ある図形を連続的な変形を施したものは、もとの図形と同一視される。コップはドーナツ。
- どんなに頑張ってもAからBには変形出来ない、なら、違う図形。でも出来ない(やってない)ことの証明は難しい。そこで、不変量が出てくる。不変量が違うなら、大元も違うよね、と言う論理。
- 位相空間に対して計算される不変量を、位相不変量という。その中でも(要素)、ホモロジーがある。ホモロジーは位相不変量の1種。
- ホモロジーは位相空間Aの上の、ベクトル空間。「穴」の数が、ホモロジーのベクトル空間の次元となる。
次に、こちらのWikiを見る。
- ホモロジー群は、位相空間Xが与えられた時、Xの情報を抽出した、チェイン複体を作る。チェイン複体とは、アーベル群や加群を境界作用素という群準同型で繋いだもの。境界作用素2つの合成は常に0。
- その時、
をn次ホモロジー群とする。これは剰余群または剰余加群。この群の元をホモロジー類という。
ここで一旦戻ってくる。
- データの形。膨大なデータ。データの潜在価値の抽出。(材料構造データ、3次元画像データ)。機能と構造が関わるので、幾何学的配置が知りたい。形に関する特徴量から、相関などを見る。「データの形に注目した数学的解析」
- Topological Data Analysis。材料科学、脳科学、生命科学、情報通信。ビッグデータ。
- Persistent Homology。パーシステント図。
- Mapper。遺伝子発現データ。
- 空間点データの扱い方。空間的データの「穴」を捉えたい。でも、点は離散的な対象。点を適当な半径の球体で近似する。ここで、半径は、データの解像度に対応。(ぼやけ)。穴は球の和集合の作る穴。
- 入力空間点データの多面体表現。
は球体。チェック複体
で定まる多面体。
- 脈体定理(Nerve Theorem)
。切り貼りしない連続変形でうつり合える(これをホモトピー同値という)。点列や点の配置を、計算機で扱いやすい多面体に移せる。センサーの被覆領域。
- ホモロジー。幾何学的対象の「穴」をベクトル空間で表示する道具。0次ホモロジーは連結成分、1次ホモロジーはリングの数。2次ホモロジーは空洞の数。q次ホモロジーはq次元の「穴」の数に対応する。
ただしKは体。
- ホモロジー線形写像。包含関係が成り立てば、線形写像に対応する。片方の基底が、維持されるか、潰れるか。ホモロジーの列と、その間の線形写像。これは、区間分解が成り立つ。(包含関係が連続して成り立つから、区間に着いての歴史(生成から消滅まで)が分かる)区間分解は、穴のつながり具合を表現する。
- 直観的説明。解像度を変えて、「穴」を発生させ、消滅させ、その歴史を特徴量にする。パーシステント図構成法。穴の発生の半径と穴の消滅時の半径を2つのパラメータとして、得られ、プロット出来る。
- 数学的な定義。位相空間のフィルトレーション、を入力とする。パーシステント。ベクトル空間と線形写像の列。これをパーシステントホモロジーという。構造定理が成立する。直和分解(区間分解)
- グレースケール画像や2値画像にも使える。
- 機械学習の手法を使う。Quiverや多元環の理論から考える。パーシステント図の極限の振る舞いなどもある。機械学習ではそのパーシステント図をベクトル化したい。非線形カーネルにして、機械学習をする。
- パーシステント・イメージ。ヒストグラムの各点をガウス分布として扱う(隣同士の関係を抽出するため)、対角線からの距離に応じた重みを加える。
- Mapper。複雑な形のデータの形を抽出するトポロジカルデータ解析手法。高次元データを扱いやすい。ただし粗い特徴づけ方。フィルター関数で色づけして、被覆で分割し、グラフにする。
- フィルター関数は、高次元空間Xからk次元空間に落とし込む(PCAとかMDS)
- 被覆。各カバーリングを、データに戻してクラスタリングするのと、カバーリングのクラスタリング。そして、Overlapしていたので、そこを上手く繋ぐとグラフになる。