誤差逆伝播法を行列演算でExcelに実装してXavierの初期値の有効性を実験してみた

2021年11月12日2024年5月18日

1. Excelによるニューラルネットワークを行列演算で効率化する
2. 行列を定義する
- 2.1. 行列サイズを決定する
- 2.2. 行列成分を決定する
3. Excelに実装する
4. Xavierの初期値の有効性を実験する
- 4.1. Xavierの初期値を使うときれいに収束
- 4.2. 初期値が小さすぎても学習率を上げることで改善

Excelによるニューラルネットワークを行列演算で効率化する

行列演算は大量のデータの線形和を一遍に計算するのに便利です。

過去の記事で９画素の〇✕画像を見分けるニューラルネットワークをExcelに実装しました。

ニューラルネットワークをExcelに実装して画像処理させてみた。

この時は行列演算を使わなかったので、使ったらどれだけ簡単になるか試してみました。

また、重みの初期値がどれだけ学習速度に影響するかもシミュレーションしてみました。

【勾配消失しない重みの初期値】Excelでモンテカルロシミュレーションしてみた

行列を定義する

行列サイズを決定する

前回作ったニューラルネットワークは、入力層９ニューロン、隠れ層３ニューロン、出力層２ニューロンでした。

入力が３×３画素の画像データだったため、分かりやすくするために上図のようにExcelに入力していました。

これを今回は９個の画素データを並べて１次元のデータにします。

その上で入力データ、隠れ層の重み、出力層の重み、出力データを下記の行列サイズにします。

２つの行列の掛け算をする時には、前の行列と列数と後の行列の行数が一致していないといけないことに注意です。

それに注意すると、自ずと行列のサイズはこのように決定されます。

行列成分を決定する

すると、行列の成分も自ずと下記のように決定します。

重み行列W^HやW^Oがどのニューロンにかかる重みに対応しているかは、図示した通りです。

また前回は４４組の教師データを１つずつ読み込んで逐次学習させましたが、今回は４４組のデータをまとめてバッチ処理します。

これにより行列演算の威力が更に発揮され、処理の高速化が期待できます。

Excelに実装する

順伝播の計算式

それではExcelに入力していきます。

最初の順伝播の計算は簡単なので、サラッと行きます。

逆伝播の計算式

ここから逆伝播の計算が入ってきます。

まず簡単な出力層の重みの勾配は次のように計算します。

例えばw^O₁₁の勾配を求めるには、u^O₁の計算式にw^O₁₁が入っていて、z^O₁の計算式にu^O₁が入っているので、連鎖律により上式のように３つの微分に分解できます。

それぞれの微分は簡単に計算できます。

次に、少し難しい隠れ層の重みの勾配は次のように計算できます。

図が込み入っていますが、考え方自体は出力層の重みの微分と同じです。

例えばw^H₁₁の勾配を求めるにはu^H₁の計算式にw^H₁₁が入っています。

そしてu^H₁が関係してくるのはu^O₁、z^O₁、u^O₂、z^O₂の計算式です。

ですから、それに沿って連鎖律を適用していくと上図のように計算できます。

収束するまでバッチ計算を繰り返す

さて、これで４４組の入力データによる１バッチ分の計算が終わりました。

最後に計算された隠れ層の重みの勾配と出力層の重みの勾配に学習率を掛けて、初期値の重みから引いて更新します。

そして、この更新された重みを使って同じ４４組のデータを入力として２バッチ目の計算を行います。

上図では１バッチ目が終了した損失関数の値は１０.９５でしたが、この値が十分に小さくなるまでバッチ計算を繰り返します。

学習率を０.５にした場合の結果は次のようになりました。

Xavierの初期値の有効性を実験する

Xavierの初期値を使うときれいに収束

上記のシミュレーションでは、隠れ層と出力層の各重みの初期値を平均ゼロ、標準偏差０.１の正規分布に従う乱数で設定していました。

Xavierの初期値では、前の層のニューロン数をｎとすると、平均ゼロ、標準偏差１／√ｎの正規分布乱数で設定すると良いとされています。

これに従うと、隠れ層の初期値は標準偏差１／３、出力層の初期値は標準偏差１／√３になります。

これに従って初期値を設定した場合の結果は次のようになりました。

初期値は乱数で設定していますので毎回結果は異なるのですが、ほぼ毎回きれいな放物線で収束しXavierの初期値の有効性が確認できました。

初期値が小さすぎても学習率を上げることで改善

次に、標準偏差を０.０１に変えてシミュレーションしてみました。

結果は次の通りです。

振幅は少ないのですが、最初の１０バッチくらいはほとんど学習が進みませんでした。

Excelシートで計算結果を見ると原因がよく分かります。

まず、勾配の計算式を見てみましょう。

出力層、隠れ層共に出力の誤差が計算式に掛け算で含まれています。

出力の誤差は出力値－教師データの値です。

重みの初期値を平均ゼロ、標準偏差０.０１にしていますので、初期値はほぼゼロです。

ということは、入力値に重みを掛けて合計した線形和もほぼゼロです。

これがシグモイド関数を通って出力値になりますが、シグモイド関数は入力がゼロの時には０.５を出力します。

一方、教師データは０か１ですので、ｚ－ｔ、つまり出力誤差は０.５か－０.５になります。

１バッチには４４組の入力データと教師データの組を読み込ませていますが、教師データが０のデータと１のデータは半々です。

ということは、４４個の出力誤差を足すとほぼゼロになってしまいます。

勾配の計算式には出力誤差が掛け算で入っているため、これがほぼゼロになると勾配もほぼゼロになって学習が進まないのです。

最初の約１０バッチ分で損失関数の値が減少していないのはこのためです。

このような場合には、学習率を上げれば少しはマシになるでしょう。

学習率を０.５から０.9に上げたら、次のようになりました。

学習が進まない期間が半分に減って、収束までの時間も短くなりました。

このように、重みパラメータの初期値と学習率は関連があることが分かります。

AI by ExcelAI,微分,行列,誤差逆伝播法

Posted by ロジギーク