O'Reilly Japan - ゼロから作るDeep Learning
学習
- パラメータを自動で
- 膨大な数な数。手作業でやるのは無理
- 損失関数
- 学習の指標
- これが一番強い小さくなるパラメータを探す
- パーセプトロン
- 線形分離可能な問題は自動で学習可。収束定理。
- 非線形分離問題は自動学習不可
- データ駆動
- 人の介入を避ける
- ディープラーニングはそれがやりやすい手法
- 5を識別する
- 特徴量+機械学習のアプローチでは、特徴量を人が設計する
- ディープラーニング(ニューラルネットワーク)ではそこも自動で
- end to end machine learning
- 過学習
- 特定のデータセットにしか対応できない
- 汎化能力がない
- 訓練(教師)データとテストデータを分ける
損失関数
- 任意の関数使える
- 二乗和誤差や交差エントロピー誤差がよく使われる
- 2乗和誤差
- 出力と教師データの各要素の差を二乗してその総和を求める
- 交差エントロピー誤差
- 教師データを01のone hot表現にすれば出力結果のlog、自然対数を求めるだけになる
- log(0)にならないように極小の値deltaを足す
- ミニバッチ学習
- 全訓練データを対象に損失関数を求めたい
- 数が多いと無理
- 無作為に一部を抽出してそれを対象に学習
- 正確ではないが、全体の近似として扱う
- バッチ版交差エントロピー
- tが0のものは0になるので無視できる
- 正確に対する出力だけ取ってくればよい
- あとはそれを平均するだけ
- なぜ損失関数が必要か
- 認識精度を指標にすればいいのでは
- 微分(勾配)を参考にパラメータを調整していく
- 認識精度の微分は0になるので使えない
- 認識精度はパラメータの微小な変化では変わらないステップ関数と同じ。
- 損失関数ならパラメータを変えると連続的に変化するので、それを元にパラメータ調整できる
数値微分
- ある瞬間の変化
- 10分間に2km、1分間に0.2km…時間hを0に近づける
- 小さすぎる値を使うを丸め誤差がおこる
- 中心差分
- f(x + h) - f(x)は前方差分。誤差が大きい
- x(f+h) - x(f-h)を使う
- 数式で解析的に解いた真の微分とは誤差があるがほとんど同じ値が得られる
- 偏微分
- 複数の変数からなる関数の微分
- 片方の変数を固定してもう片方の変数を微分する
- 勾配(gradient)
- 全ての変数の偏微分をベクトルにまとめる
- 各地点において関数の値を最も減らす方向を向いたベクトルになる(関数の最小値とは限らない)
- 勾配法
- 勾配を使って損失関数が小さくなるパラメータを探す
- 勾配は最小値以外でも0になる。極小値や鞍点、プラトー。
- 勾配方向への移動を繰り返して関数の値を減らしていく。勾配降下法。
- 学習率。1回の移動量。正しく学習でいる値になっているか確認する必要がある。
- ハイパーパラメータ。重みやバイアスのように自動で獲得されず、学習率のように人の手で設定するもの。
学習アルゴリズムの実装
- SGD
- 確率的勾配降下法
- ミニバッチ × 勾配法
- 前章のフォワード(推論)処理の実装と共通部分が多い
- 1エポックごとにテストデータで評価
- 10000個のデータを100個のミニバッチで学習するなら勾配法100回で全部見たことになるので100回がエポック