いろんな本の主成分分析を読んでいた

はじめに

主成分分析についてちゃんとやらんとなと思い立ったので、手元にある本の主成分分析に関わる記述について読んでいた。

文意を正確に解釈できる頭はないので、変換がかかっているとは思うがせっかくなのでメモする

データ分析に必須の知識・考え方 統計学入門

  • 主成分分析は相関している変数同士をまとめる処理
  • 変数間の相関が高い場合は、寄与率(各主成分における分散の割合)が高い軸が生成される
    • この場合、より相関が高い変数が多いほどよく次元圧縮できる

なるほど感。相関(線形の関係性)が強いものだけをまとめているという表現が分かりやすい

データサイエンス体系 データサイエンス入門

滋賀大学のDS学部のやつ

主成分分析については本当に概念だけで、似ているものをまとめる軸を作成する という感じの表現

入門統計学(栗原伸一)

これは普通に教科書なので導出(スカラーで展開できるものはしてあってウっとならない)もあってよい

流れ的には * 主成分は各特長量に重みづけして足したものです * 主成分分析とは、主成分に畳み込む前の元の観測変数をデータのばらつく方向に軸を回転させること * 分散が大きい = 情報を損なわない

というスタートから、

  • 主成分の分散はこう書ける
  • 主成分分析の前処理として観測変数が標準化してあるなら、分散はこう書ける
    • この標準化の前提でだいぶ楽になる
    • 実際の解析でもStandardScalerなりで標準化することが多いと思うので良い実態にも合う
  • 主成分の重みづけにおいて大切なのは大きさではなく比率、なので制約条件を付けます
  • 制約条件下の最大化ならラグランジュの未定乗数法
  • そのまま解いてもいいが、固有値問題として解いた方が拡張できてよい
  • 固有値と分散の関係、制約条件を考えると分散=固有値となる
  • 固有値問題を解く、固有値計算→固有ベクトル計算
  • 固有値の大きいものから第一主成分、その時の固有ベクトルの各成分が観測変数に対する重みになる

数学クソ雑魚なので成分表記助かるな...。最後まで意味を追いながら読めたので良かった。

分析者のためのデータ解釈学入門

こちらはカバー範囲が広いのでPCAについての説明はちょろっとという感じ。今回気になっていたことを調べるには用途が違う

データ分析のための数理モデル入門

これもPCAそのものの情報は触れる程度、ただし、独立成分分析やその他の手法が紹介されていたのでその点は良かった

例題でよくわかる はじめての多変量解析

これも教科書なので詳しく書いてある。こちらは3変数での導出なので入門統計学を読んでから読むとよさそう

流れは基本的に変わらないが、例題があるのが良い。また第二主成分については第一主成分との相関が0であることより導出してあり、気になるところをやっている感じがする。

ただし、3変数なので導出がちょっと大変

ビッグデータ統計解析入門

表記が難しい...ほかの教科書を読んでいれば変数の対応はわかるけど、いきなりこれ読むと結構厳しい感じがする。

多変量解析入門1(河口至商)

結構古めの文献で、印刷が明らかに古いのもありビビってたけどわかりやすかった。

もちろんそれまで読んだ本のおかげで理解できた点もあるが、ベクトルを使いつつ、簡単な例から始まったので良かった。

おわりに

なんとなくわかった