ただのメモ

他の人に見せても良い方のメモ

「スパース回帰分析とパターン認識」

こちらの本に入門する。

始めましょうか

  • 回帰モデルとスパース推定
    • 回帰モデルと正則化
      • d次元ベクトルと実数が与えられる。
        • この2つの関係を表したい
          • 関数を使う
            • 説明変数と目的変数
              • 入力と出力
            • 上手い関数が良い
              • 誤差を小さくしたい
          • 誤差の小さい関数を使う
            • 初めからはない
            • 作る
              • データから近似
              • それが回帰
        • データから誤差の小さい関数を推定して、関係を表したい
      • パラメータ(線形回帰)
        • 回帰係数
          • 直線で関数を近似したい
          • 直線なので、係数がかかる
            • その係数を回帰係数という
            • 切片にも注意
      • 最小二乗法
        • 単回帰モデル
          • 1次元
        • 誤差を定量化する方法が欲しい
          • 二乗損失を考える
          • 損失関数を作る
            • その損失関数が最小になるものを良いとする。
            • 最小二乗推定量
        • 重回帰モデル
          • 多次元
          • Xと係数βで張る空間への射影をする
          • 残差はその直交補空間の元
        • 最小二乗推定量は、不偏推定量
      • ガウス・マルコフの定理
        • 最小二乗推定量は、あらゆる推定量の中で、最も分散が小さい
        •  V[\tilde{\beta}] \geq V[\hat{\beta}]
          • この不等号(として使った記号)は、左辺と右辺を引いた行列が半正定値行列
      • 最小二乗法は使えない(使い勝手が悪い)とき
          • データ数が少ない時、
          • データに多重線形性があるとき、
        • 特徴
          • こういうときは、上手く X^TX逆行列が計算できない
          • 計算出来ても、対角成分が大きくて、解が安定しないらしい。
        • 代替案
          • そんなときにリッジ回帰
      • リッジ回帰
        • 損失関数に \lambda |\beta|_2^2を足す
        • 定量は不偏ではない。
          • 正則化の分、小さくなる
          • しかし、分散は小さくなる
            • 安定した推定
          • バイアスとバリアンスのトレードオフ
            • 不偏性をとるか、安定性をとるか
        • 最初に、規格化することが多い
          • 大きな変数程、過剰に縮小される問題を防ぐ
    • ラッソとその性質
      • 一般に線形回帰モデルでの正則化手法は、二乗誤差と回帰係数の関数の和を最小化する問題を解いている
        • 第一項は、モデルへのFitの良さ
        • 第二項は、罰則項。
          • Overfitを防ぐため
        • Fitしつつ、Overfitしない
          • この匙加減が難しい
      • ラッソは、回帰係数の絶対値の和を罰則項に持ってくる。
        • 目的関数を最小化しつつ
        • 変数選択も行う
          • 不要な変数に対応する回帰係数を0と推定すること
        • λの値を動かした時の解の軌道
          • λと解の組の集合
          • これを解パスという。
      • ラッソ推定値のスパース性
        • 幾何学的発想
          • ラッソはひし形
          • リッジは円
            • 接するところが解
        • 閾値作用素
          • 回帰係数の絶対値が
            • λより大きいとき、λだけ0に近づける操作
            • λより大きくないとき、0にする操作
          • これがバイアスの原因
        • 閾値作用素
          • 回帰係数の大きさがλを超えても縮小しない
          • こっちの方が、推定値は、最小二乗法のものと近い
        • リッジは傾きが小さいので、推定値の差が出やすい
      • ラッソ推定値の性質
        • 3つの性質
          • 一意に定まるか、非可算無限個
          • 任意の推定値b1,b2に対し、
            • Xb1=Xb2
            • ||b1||=||b2||
        • どの推定値使っても、予測値は同じ
        • 説明変数が気になる時は困る
          • 取り出し方にバリエーションがある。
            • 変数Aを取り出す時もあれば、捨てる時もある
          • バリエーションが有る時か無い時かチェックしたい
        • 微分と劣勾配
          •  \partial g(x) = \{v \in \mathbb{R}^d | g(y) \geq g(x) + v^T(y-x) , y \in \mathbb{R}^d\}
          • 傾きの部分集合で、凸関数に交わらないようなものの集まり
            • これを劣勾配という。
            • 直観的に、傾き、というと、一つの数が返ってくるイメージだが、それを区間にした
          • この時、ラッソ推定値の満たす条件が出てくる
            •  -X^T(y-X\hat{\beta}+\lambda v = 0
            • vはl1ノルムの劣勾配
    • モデル選択
      • クロスバリデーション
        • 手法
          • データを分ける
          • 分け方を変えて、違うセットを作る
          • セットごとにスコアを出す
          • 総スコアを最小にする、パラメータを選ぶ
            • 総スコアを、CV誤差という。
          • K分割交差検証法
          • 1つ抜き交差検証法
        • CViのバラつき
          • セットごとに、スコアがぶれる
          • その標準偏差を計算して
          • ある程度標準偏差分ずれた推定をする
            • 肝は、CV誤差が大きくなる代わりによりスパースな(λの大きい)推定をしよう、ということ
            • 1標準誤差基準
        • 交差検証法の性質
          • 予測誤差の推定量(ほぼ)
          • 一個データ抜いたぐらいでは、回帰係数はそんな変わらん
      • 情報量基準

スパース回帰も面白そうだが、今はこのあたりで止めておく。

バイバイ!