2016-05-20 機械学習コトハジメ アルゴリズムの分類 Classification 分類 Regression(回帰分析) 数値でなにかを予想する jupyter_ml4seで公開されている0次 定数 2次 直線 3次 いい感じ 9次 微妙次数が増えるとグラフを書くことが不可能になり 人の判断ができなくなる平方根平均2乗誤差。誤差がなし。過去のデータを再現するのにはベスト。未来のデータは再現できない。過学習。(overfitting)全データ+テスト用データを分ける。そうすることで、シンプルで ベストなものがわかる敢えて大量のデータを入力させて、過学習を避ける。0.3の標準偏差。0.3のノイズがのっているんだなと見えてくる 面白い どのアルゴリズムがベストなのか? それは経験で データの本質を理解していなかった 体型と携帯の乗り換えに意味がなかった。人間が判断して 過去のデータに対してあっている。 クロスバリデーションすれば避けられるはず 最尤(さいゆう)推定 確率を最大にするwを計算する。ノイズの幅も計算できてしまう。 過学習だとノイズゼロとでる。