ブラックジャックの必勝法をExcelモンテカルロ法で強化学習したらこうなった。

2021年10月26日2024年5月18日

1. ディーラーの公開カードも考慮したブラックジャックの必勝法を強化学習で求める
2. 状態価値でなく、状態＋行動の価値を見積もる
3. モンテカルロ法をExcelに実装する
4. 強化学習によるブラックジャックの必勝法はこれだ

ディーラーの公開カードも考慮したブラックジャックの必勝法を強化学習で求める

前回の記事では手持ちカードの合計が？？までヒットするという単純戦略を採る場合、？？はいくつになるかを見つけるためにモンテカルロシミュレーションしました。

Excelを使った強化学習でブラックジャックの単純戦略をシミュレーション！

結果は１６でしたが、これはAを１１として固定的に数えているためです。

Aが手元にあり、かつ１１として数えている場合は、バストしそうになったら１として数えればいいのでバストしません。

このようにAを柔軟にカウントするなら、１８までヒットすべしというのが良く知られたセオリーです。

（但し、プレーヤーは一人だけで、ディーラーとの差しの勝負の場合）

今回は、このような固定的な戦法を採るのではなく、手持ちのカードの合計がいくつで、ディーラーが表にしているカードがいくつの時に、ヒットするのが得か？ステイするのが得か？を強化学習のモンテカルロ法により最適解を求めてみます。

但し、カジノのプロを目指すことは目的としていませんので、ルールを簡略化します。

今回もAは１１として固定的にカウントしますので、本番では使えない戦法であることをご容赦下さい。

状態価値でなく、状態＋行動の価値を見積もる

今回の目的を簡単に言うと次のようになります。

前回は手持ちカードの合計が１６とか１８になるまでヒットし続けるという方策が決まっていました。

その上で、各状態の価値を何万回もモンテカルロシミュレーションをして見積もりました。

例えば、合計が２０の状態は１２にくらべて格段に価値が高いことはすぐに分かります。

２０だとステイすればほぼ勝ちが見えているからです。

それに対して、今回は方策が決まっていません。

従って、各状態でどういう行動をとればどれくらいの価値になるのかを見積ります。

つまり、状態＋行動の価値を見積もるのです。

上の例で言うと、合計が１３の時にステイしてしまうと、ディーラーの数の方が大きくなる可能性が高いので、ヒットする方が勝つ確率が上がりますね。

つまり、この場合は状態が１３＆８の時には、ヒットする行動の方が価値が高いと言えます。

勿論、ヒットしたらバストして負けてしまう可能性もありますので、何万回も乱数でシミュレーションして、何回勝っていくら報酬を得られるかを調べます。

このようにすれば、各状態＋行動の価値を見積もることができるだろうというわけです。

これは強化学習の中のモンテカルロ法というアルゴリズムです。

Q学習との違いは、Q学習がステップごとにQ値を更新するのに対して、モンテカルロ法では１つのエピソードが終わるまでQ値の更新を行わないことです。

【強化学習】Q学習のアルゴリズムをExcelに実装して迷路問題を解いてみた。

モンテカルロ法をExcelに実装する

プレーヤーのカードを乱数で作る

それではExcelに実装していきましょう。

まず、プレーヤーのカードを乱数を使って９枚目まで作っておきます。

合計を２１にするために９枚も必要ないと思いますが、念のためです。

累積報酬Gを計算する

次に、各勝負における累積報酬Gを計算します。

プレーヤーのカードを乱数で作ったように、ディーラーのカードも乱数で作っておきます。

ディーラーは合計１７以上になるまで自動的に追加しないといけないので、乱数で確定できます。

この時、１枚目のカードは分かるようにしておきます。

後ほど、「状態」として使いますので。

「行動」は１：ヒット、２：ステイのいずれかになりますが、これの決め方については後ほど触れます。

基本的に報酬が決定するのはステイしてからですが、ヒットでもバストしてしまえばそこでマイナスの報酬が確定します。

従って、バストしたかどうかも表に書き入れておきます。

これはVBAで行いました。

ここまですれば報酬が確定するステップが決まりますので、勝てば＋１、負ければ－１がそのステップの報酬となります。

上の例で言えば、第２ステップがそれです。

第２ステップの状態は２１＆９、行動は２、累積報酬は１です。

第１ステップの報酬は割引率で割り引きます。

今回は割引率を０.２としましたので、報酬は０.２となります。

第１ステップからは第２ステップを経由しないと報酬が得られませんので、累積報酬は両者を足して１.２になります。

従って、第１ステップの状態は１２＆９、行動は１、累積報酬は１.２です。

Qテーブルを更新する

これで２組の（状態、行動、累積報酬）の値が決まりました。

これを強化学習の下式に代入してQ値を更新します。

具体的には、次のような表を作っておいてQ値を更新していきます。

行動の決め方

先ほど飛ばした「行動」の決め方については、次のようにしました。

基本的には各状態でQ値が一番高い行動を採りますが、たまにランダムな行動も採るようにします。

「たまに」の程度はεで決めますが、最初は１からスタートし、シミュレーション回数が進むにつれて小さくなるようにします。

強化学習によるブラックジャックの必勝法はこれだ

各状態におけるQ値の初期値は、すべてヒットが１、ステイが２としました。

そして30,000回の強化学習を行ったところ、次のようにQ値が更新されました。

Q値の大きな行動が勝つ確率の高い行動なので、各状態で打つべき手は次のようにすべしと強化学習は教えてくれます。

１はヒット！、２はステイ！です。

ほぼセオリー通りになりましたが、ディーラーの開示カードが６と１１（A）の時だけ２０までヒットすべしという結果になりました。

これはプレーヤーにせよ、ディーラーにせよ、ヒットして追加されるカードの期待値が７.３くらいであるためだと思われます。

ディーラーの開示カードが１１なら、もう１枚のカードを合せた合計の期待値は１８.３くらいですので、プレーヤーが勝つには１８でもヒットしないといけません。

またディーラーの開示カードが６なら、もう１枚を合せても合計の期待値は１３.３なので、自動的にもう１枚引くことになります。

そうすると、期待値が２０.６になるので、プレーヤーはもっとヒットしてリスクを負うべしという結果になったのだと思います。

但し、これはAを１１として固定的にカウンティングしているからであって、実際はもっと複雑ですので、この戦法で負けても管理人は責任を負いません。＾＾

ブラックジャックAI,カジノの確率,モンテカルロシミュレーション,強化学習

Posted by ロジギーク