Regression(回帰分析)
数値でなにかを予想する
jupyter_ml4seで公開されている
0次 定数
2次 直線
3次 いい感じ
9次 微妙
次数が増えるとグラフを書くことが不可能になり
人の判断ができなくなる
平方根平均2乗誤差。誤差がなし。過去のデータを再現するのにはベスト。未来のデータは再現できない。過学習。(overfitting)
全データ+テスト用データを分ける。そうすることで、シンプルで
ベストなものがわかる
敢えて大量のデータを入力させて、過学習を避ける。
0.3の標準偏差。0.3のノイズがのっているんだなと見えてくる
面白い
データの本質を理解していなかった
体型と携帯の乗り換えに意味がなかった。人間が判断して
過去のデータに対してあっている。
クロスバリデーションすれば避けられるはず
最尤(さいゆう)推定
確率を最大にするwを計算する。ノイズの幅も計算できてしまう。
過学習だとノイズゼロとでる。