鈍足ランナーのIT日記

走るのが好きな5流のITエンジニアのブログ。

趣味の範囲は広いけど、どれも中途半端なクソブロガー楽しめるWebアプリを作ってあっと言わせたい。サーバーサイドPerl(Mojolicious)、クライアントサイドVue.js。Arduinoにも触手を伸ばす予定。

機械学習コトハジメ

アルゴリズムの分類

Classification

分類

Regression(回帰分析)

数値でなにかを予想する
 jupyter_ml4seで公開されている

0次 定数
2次 直線
3次 いい感じ
9次 微妙

次数が増えるとグラフを書くことが不可能になり
人の判断ができなくなる

平方根平均2乗誤差。誤差がなし。過去のデータを再現するのにはベスト。未来のデータは再現できない。過学習。(overfitting)

全データ+テスト用データを分ける。そうすることで、シンプルで
ベストなものがわかる

敢えて大量のデータを入力させて、過学習を避ける。

0.3の標準偏差。0.3のノイズがのっているんだなと見えてくる
面白い

どのアルゴリズムがベストなのか?

それは経験で

データの本質を理解していなかった

体型と携帯の乗り換えに意味がなかった。人間が判断して

過去のデータに対してあっている。

クロスバリデーションすれば避けられるはず

最尤(さいゆう)推定

確率を最大にするwを計算する。ノイズの幅も計算できてしまう。
過学習だとノイズゼロとでる。