機械学習

Chainer08,09「Numpy入門」「scikit-learn入門」

08. Numpy入門

Numpyとは数値計算を高速に行うためのライブラリです。

とくに多次元配列の計算について学びました。中でもブロードキャストは初見の知識だったのでへーってなりました。

最後には関数を使わずに重回帰分析をやったりしました。

09. scikit-learn入門

チュートリアルリンク

scikit-learnはPythonのオープンソース機械学習ライブラリです。様々な機械学習の手法が統一的なインターフェースで利用できるようになっています。scikit-learnではNumPyのndarrayでデータやパラメータを取り扱うため、他のライブラリとの連携もしやすくなっています。

機械学習の様々な手法を用いる際には、データを使ってモデルを訓練するまでに、以下の 5 つのステップがよく共通して現れます。

  • Step 1:データセットの準備
  • Step 2:モデルを決める
  • Step 3:目的関数を決める
  • Step 4:最適化手法を選択する
  • Step 5:モデルを訓練する

このステップに基づいてscikit-learnを使って実際に重回帰分析を行いました。

データセットは訓練用とテスト用に分ける、標準化やべき変換などで前処理を行う、パイプライン化などのtipsを学びました。