データ解析テンプレート

データ解析をすることが多いので、とりあえず確認しておく項目を整理する

とりあえず事前確認すること

  • ✅データ置き場のファイルパスを解析前に決める
    • 暫定でもいいが、hogeとかつけておくと大体後悔するのでしっかり目に決めておくことにしている
  • ✅出力ファイルのファイルパスやフォルダを解析前に決める
    • 画像データと何かしらの中間ファイルを吐くことが多いので、それぞれ決めておく
    • 決めないと十中八九カレントディレクトリにhoge.pngあたりの名前を付けて出力して後悔する
  • ✅データのフォーマットを確認する
    • フォーマットが特殊な場合はやりすぎない、必要なデータを取り出せることが大切
    • フォーマットの情報をまとめておく
  • ✅データの次元数を確認する
    • ちゃんとメモを取る。
  • ✅主成分分析をする
    • 主成分分析でデータの分類可能性を見る
    • 主成分分析ができれば決定木ベースの分類器や判別分析などができるだろうとあたりを付けられる(と思っている)
  • ✅主成分分析で分類できそうなら、PC1の寄与率/AUCを確認する
    • 後々確認しとけばよかったなと思うことが多々ある
  • 🔥解析して意味のある結果が得られなくても悩みすぎない
    • 手法が悪いことより、メタ知識が足りないことのほうが多い(気がする)
      • つまり、今の結果がいいか悪いか評価できなくて悩んでしまう
      • しょうがないので教科書とかを読む
    • 精神衛生を保つために別のアプローチがないか調べる
      • 英語の勉強がてら論文読むのがよい
      • 自分の成果が出なくても、英語の経験値+1と事例調査+1が得られる

ここまで