畳み込み後のMNIST画像をExcelに実装したニューラルネットワークで判別してみる。

2021年10月1日2024年5月19日

1. 畳み込みした後の圧縮画像をExcelニューラルネットワークで判別してみる
2. 畳み込み圧縮データを用意する
3. Excelニューラルネットワークに圧縮データを投入する
4. 学習結果
5. 教師データ以外の画像で検証してみる

畳み込みした後の圧縮画像をExcelニューラルネットワークで判別してみる

前回は２８×２８画素の数字画像を畳み込みによって３×３画素の画像に圧縮しました。

>> 【中学数学で理解する】畳み込みニューラルネットワークの原理をわかりやすく

これはただ単に圧縮したのではなく、縦／横／右斜め／左斜めの４種類のフィルターでそれぞれの特徴を抽出してから圧縮したので、特徴量が凝縮されています。

いわば、それぞれの画像の尖ったキャラだけを抜き出したデータということができます。

一方前々回は、３×３画素の〇✕画像をニューラルネットワークの誤差伝播法で解くアルゴリズムをExcelに実装しました。

>> ニューラルネットワークを使って画像処理する方法をExcelでわかりやすく解説

そこで、３×３に圧縮した数字画像をこのExcelアルゴリズムに教師データとして投入すれば、数字画像も区別できるようになるだろうと想像できます。

今回は、これを試してみます。

まずMNISTの学習用データから「４」と「５」の画像データを５枚ずつ合計１０枚抜き出します。

それぞれの画像は２８×２８画素です。

次に、縦／横／右斜め／左斜めの４種類の５×５のフィルターをそれぞれの画像に掛けて、２４×２４画素の画像に畳み込みます。

この時点で２４×２４画素の畳み込み画像が４０枚できます。

次にそれぞれの畳み込み画像を最大プーリングによって３×３画素の画像に圧縮します。

最大プーリングとは、前回解説したようにいくつかのゾーンに分割して、それぞれのゾーンの中の最大値を取るやり方です。

ここまでで３×３の圧縮画像が「４」と「５」について２０枚ずつできますので、これらを前々回作った〇✕を見分けるExcelのアルゴリズムに投入するのです。

果たして正解率１００％になるように、すべてのパラメータ（重みとバイアス）を調整することができるのでしょうか？

畳み込み圧縮データを用意する

今回、教師データとして使うのは次の10枚の画像です。

すべて２８×２８画素の画像です。

それぞれの画像について、次のように畳み込み＆プーリング処理をして４枚の圧縮画像を作ります。

そして、教師データを付けます。

「４」が正解であればt1=1、t2=0となるように、「５」が正解であればt1=0、t2=1となるようにt1とt2を定義します。

この前処理をすべての元画像について行えば、「４」について20枚、「５」についても20枚、合計40枚の圧縮データが出来上がります。

Excelニューラルネットワークに圧縮データを投入する

次に前々回に〇✕を見分けるために作ったニューラルネットワークを実装したExcelシートに、40枚の圧縮データを入力します。

〇✕の時も３×３の画像で、教師データを表す変数もt1とt2の２つでしたので、そのまま入力できます。

具体的には、下記の位置に数値をコピペします。

と、このように40枚分のデータをそのままコピペしてもいいのですが、今回は以前の記事で解説した確率的勾配降下法を使ってやってみます。

普通の勾配降下法ではバッチ方式といって、40枚分のデータすべてについての誤差関数を合計して、それが最小になるようにパラメータを調整します。

これに対して確率的勾配降下法では、４０枚の中から1枚分のデータをランダムに選んで、パラメータを調整しながら誤差関数を最小化するという計算を逐次的に行う方法でした。

>> 【Excelでアルゴリズムを実装】確率的勾配降下法を使って最小二乗法を解いてみる

なぜこの方法を使うのかというと、バッチ方式だとExcelシートを作るのが面倒臭いからです。

単にコピペで試行回数を増やせる逐次方式の方が、Excelに実装するにはやり易いのです。

従って、予め40枚分のデータをランダムに並べ替えたデータを大量に用意して、それを上図の位置にコピペしました。

学習結果

隠れ層のパラメータが学習されず収束しない

実行してみた結果、初期の正解率が48%で、5,000回くらい学習させた後も48%で全く収束しませんでした。

正解率48%ということは半々ということですので、当てずっぽでやってもこれくらいは当たることになります。

頭の悪いAIです。

シートをよく見てみると、隠れ層H₁～H₃にかかる重みの勾配が最初からずっとゼロのままでした。

入力が大きすぎシグモイド関数の微分がゼロになることが原因

重みはこの勾配分だけ変化させていくので、勾配がゼロでは重みは初期値からいつまで経っても変わらないことになります。

更に、なぜ勾配がゼロになってしまうのかを追っていくと、シグモイド関数の微分がゼロになっていることが分かりました。

隠れ層の重みの勾配は次式で計算されます。

∂E/∂ w^H₁₁=∂E/∂ z^H₁ ･∂z^H₁/∂ u^H₁･∂u^H₁/∂ w^H₁₁

=(∂E/∂ z^O₁ ･∂z^O₁/∂ z^H₁ +∂E/∂ z^O₂ ･∂z^O₂/∂ z^H₁)･∂z^H₁/∂ u^H₁･∂u^H₁/∂ w^H₁₁

={(z^O₁-t₁) w^O₁₁ + (z^O₂-t₂) w^O₂₁} f’(u^H₁) x₁

>> ニューラルネットワークを使って画像処理する方法をExcelでわかりやすく解説

赤字の部分がシグモイド関数の勾配で、これがゼロだと全体がゼロになってしまうのです。

なぜシグモイド関数の勾配がゼロにしまうのかというと、uが大きすぎるからです。

入力データを一律1/1000倍して解決

更になぜuが大きくなるのかというと、入力x_iもしくは重みw_ijが大きすぎるからです。

重みw_ijの初期値は0から1の乱数で決めましたが、入力x_iは圧縮データですので1,000以上の値もあります。

従ってuの値も1,000以上になってしまうのです。

これを避けるには入力x_iを小さくすればいいので、一律1/1000倍しました。

５,１６０データを学習して収束

このような対策をした結果、5,160データを学習したところで収束しました。

収束条件は40データ連続して正解になることを条件としましたので、これ以降も更に誤差関数を小さくするためにパラメータの更新はされているのですが、以降は正解率が100%を下回ることはありませんでした。

教師データ以外の画像で検証してみる

以上で教師データはすべて正確に見分けられるようになりましたが、別の人が書いた数字を見分けらるかということは別問題です。

次の４枚の画像で確かめてみましょう。

学習後のニューラルネットワークで、これらの数字を見分けられるかを調べてみましょう。

まずは学習データと同じように4つのフィルターを通して畳み込みし、その後３×３に圧縮（プーリング）します。

そしてプーリング圧縮後のデータを学習後のExcelニューラルネットワークに入力値として投入します。

結果、すべて正確に見分けられたのですが、一つだけ例として一番難しそうな最後の「５」についてExcelシートをお見せします。

このように４枚の圧縮画像すべてについて「５」と判定しました。

実際に計算された確率も見てみましょう。

最初と最後の画像は95%くらいの確信度で「５」と判定していますが、2番目と3番目の画像は67%くらいの確信度しかありません。

ニューロ君も相当悩んだ様子が伺えます。

どれだけ難しかったのか、２番目の画像で見てみましょう。

２番目の画像は縦の線を検出するフィルターで畳み込んだ画像です。

他の３枚の「５」の画像と並べて、この「５」がどれだけ特殊かを比較してみましょう。

普通の人が書く「５」は左上と右下の２か所に縦の線がきます。

しかし左上の画像だけは真ん中に集中しています。

これが正に今回ニューロ君が悩んだ画像です。

これだけ崩されると無理だろうと思ってしまいますが、ニューロ君は何とか「５」と判定しています。

ちなみに、ニューロ君は元の「５」の画像は知らずに、この３×３の圧縮画像だけで「５」と判断しています。

もはやどうやって解釈しているのか人間には理解できません。

これがニューラルネットワークの凄いところであり、怖いところでもあります。

尚、今回は特徴を抽出するためのフィルターを、管理人が縦／横／右斜め／左斜めというように設定しましたが、本来はニューロ君がこれを決めます。

こんな単純な形ではなくて、もっと複雑だけれども特徴をよく表す形のフィルターを自分で決めるのです。

益々、凄いですね。

しかし、これをExcelで実装しようとすると、畳み込みの部分まで誤差伝播法で遡って勾配を計算する必要がありとても複雑になってしまいます。

この検証は暇で暇でどうしようもなくなったらしようと思います。

AI by ExcelAI,畳み込みニューラルネットワーク,誤差逆伝播法

Posted by ロジギーク