Excelを使った強化学習でブラックジャックの単純戦略をシミュレーション！

2021年10月23日2024年5月18日

ブラックジャックはカジノの中でも従属事象のゲームと呼ばれていて、うまくやるための必勝法らしきものが存在します。

本記事では独立事象のゲームとして簡略化しています。

従属事象のゲームとして捉えて必勝法を検証することもいずれはやろうと思いますが、今回はやりません。

ですので、必勝法を探していた方は退出した方がよいと思います。＾＾

1. ブラックジャックの単純戦略とは？
2. 単純戦略シミュレーションの方法
- 2.1. 状態価値の平均をモンテカルロ法で見積もる
- 2.2. 状態価値は累積報酬で見積もる
3. 単純戦略シミュレーションをExcelに実装する
4. いくつまでヒットし続けるのが最も勝率が高いのか？

ブラックジャックの単純戦略とは？

ブラックジャックのルール

ご存知の方も多いと思いますが、ブラックジャックのルールは以下の通りです。

ディーラーは自分とプレーヤ全員にカードを２枚ずつ配る
ディーラーは手持ちのカードのうち、１枚をプレーヤー全員に見せる。従って、プレーヤーは自分の２枚とディーラーの１枚の情報を持っている
プレーヤーはカードの合計が２１に近づくよう、カードを追加（ヒット）したり、追加しない（ステイ）よう決める
プレーヤーは好きなだけカードを追加できるが、合計値が２１を超えてしまった時点で負けが確定する（バスト）
プレーヤー全員がステイしたら、ディーラーはもう１枚のカードも公開し、合計値が１７以上になるまでカードを追加する
ディーラーのカードの合計値が２１を越えたらバストでプレーヤーの勝ち。越えなかったらプレーヤーのカードの合計値がディーラーのそれを越えればプレーヤーの勝ち。同じなら引き分け

他にも「ダブル」、「スプリット」、「インシュランス」等のオプションがありますが、今回は簡単のため使わないことにします。

尚、Aは１点か１１点のうち自分に都合の良い方で、２～９はそのまま、１０、J、Q、Kはすべて１０点としてカウントします。

ディーラーには選択権がない

このゲームの面白いところは、ディーラーはカードの合計値が１７以上になるまで自動的に追加し続けないといけないところです。

合計値が１６の場合は自動的に追加しないといけません。

これは結構な自殺行為なのです。

なぜなら、追加するカードの期待値は７以上だからです。

つまり、合計値が１６の時に追加すると、平均で２３以上になってしまいバストしてしまう危険性が高いのです。

プレーヤーには選択権があるが保守的になると負ける

このようにディーラーには選択権がありませんが、プレーヤーにはあるためプレーヤーの方が有利かと思いますが、勿論そんなことはありません。

そんなことしたらカジノが赤字になってしまいます。

プレーヤーに不利な条件は、プレーヤーが全員ステイしない限り、ディーラーは上のような無謀な試みをしなくて済むことです。

プレーヤーは余りに保守的にステイしてしまうと、ディーラーの合計値に負けてしまう可能性が高まりますので冒険しないといけません。

そうすると、先にバスト（２１を超えてしまう）してくれる可能性が結構あります。

後攻めのディーラーはその点有利です。

手持ちのカードのみからヒット／ステイを決めるのが単純戦略

このようなことを考えながら、プレーヤーはヒットするか（カードを追加する）、ステイするか（カードを追加しない）を決めます。

決め手となる情報は自分の手持ちのカードと、ディーラーの１枚のカードです。

ブラックジャックの必勝法とは、この２つの情報からヒットするか、ステイするかを決める虎の巻のことです。

（正確には、ある範囲の数字のカードがあと何枚残っているかを推測するカウンティングという手法も存在しますが、今回は独立事象のゲームと仮定しますので考慮しません）

強化学習を使ってこの虎の巻を作ることができますが、今回はまず単純戦略を採った場合についてのシミュレーションをしてみます。

単純戦略とは、例えば自分の手持ちカードの合計が１８を超えるまでヒットし続けるというような戦略です。

手持ちのカードのみでヒット／ステイを判断します。

ディーラーの公開カードは参考にしません。

でも、このような単純戦略を馬鹿にしてはいけません。

本格的な虎の巻では幾通りもの組み合わせがあるため、凡人には覚えきれません。

単純戦略が多くの人にとっては現実的でしょう。

単純戦略シミュレーションの方法

状態価値の平均をモンテカルロ法で見積もる

今回のシミュレーションの目的は、単純戦略を採った場合に、各状態において勝つ確率がどれくらいあるかを見積もることです。

これは言い方を変えれば、各状態における価値を見積もることです。

例えば、手持ちカードの合計値が２０の場合、この状態価値は相当高いといえます。

余程のチャレンジャーでない限りはステイするでしょうから、そうすれば負ける可能性はほとんどありません。

でも、合計値が12の場合は分かりませんね。

普通はヒットするでしょうが、出たカードによってはもう何度かヒットするかもしれないので、その結果合計値がいくつになるかなんて分かりません。

これは何度も何度もやってみて、平均値を取って見積もるしかないでしょう。

この「何度も何度も繰り返して平均を取って見積る」というのは正にモンテカルロ法です。

じゃあ、どのように各状態での価値を見積もるんだという話しになりますね。

状態価値は累積報酬で見積もる

それは次のようにします。

プレーヤーは１８を超えるまでヒットし続けるという戦略を採ることにします。

プレーヤーに配られたカードは３とＪ、ディーラーのカードの１枚は８でした。

この時、プレーヤーのカード合計値は１３です。

下図ではディーラーのカードを３枚描いていますが、配られたカードは８と５です。

合計は１３で、いずれ追加でカードを引かないといけませんので、追加されたカード７も描いています。

この７が追加されるのはプレーヤーがステイしてからなので先の話しですが、どの道追加されるので最初から描いています。

但し、プレーヤーがヒットかステイかを判断する時には８しか見えていませんので、それ以外の２枚は見えていないことを示すために隠してあります。

さて、この状態ではプレーヤーはヒットしますね。

合計が１８に達していませんので。

すると、次のように５が出ました。

これで合計が１８に達しましたので、プレーヤーはステイします。

そして、ディーラーは追加のカード７を引いて合計が２０になります。

プレーヤーの負けです。

前回の記事で紹介した累積報酬Gを計算してみましょう。

>> 【強化学習をわかりやすく】モンテカルロ法をExcelに実装して迷路問題を解いてみた

勝った時の報酬は１，負けると－１、引き分けでゼロとします。

また、割引率は0.9、学習率は0.2とします。

ステップ1の段階では報酬が確定していませんが、ステップ２で負けが確定したため報酬は－１です。

この報酬は割引率を掛けて前に遡って伝播していくため、ステップ１の報酬は－０.９になります。

これらに学習率を掛けるとステップ１のG₁は－０.２、ステップ２のG₂は－０.１８になります。

そして、ステップ２ではG₂がそのまま状態価値になりますが、ステップ１の状態価値はG₁とG₂を足した値になりますので－０.３８になります。

一方、それぞれのステップでの状態がどうなっているかというと、ステップ１ではプレーヤー１３，ディーラー８です。

ステップ２ではプレーヤー１８、ディーラー８です。

なぜそうなるかというと、このゲームをするエージェントはプレーヤーですが、このプレーヤーが認識している状態がそうだからです。

ディーラーが伏せているカードの数は分かりませんし、１７に満たない場合にこれから追加するカードの数も勿論分かりませんので。

これで２つの状態における累積報酬Gが求まりました。

プレーヤー：１３　＆　ディーラー：８⇒－０.３８

プレーヤー：１８　＆　ディーラー：８⇒－０.２

後は、これを次式に従ってQテーブルに反映していくだけです。

（今回はGの中に学習率を反映させましたので、αは掛けなくていいです）

このゲームを多数回繰り返せば、１８までヒットし続けるという戦略を採用する場合の各状態における価値を見積もることができます。

単純戦略シミュレーションをExcelに実装する

Qテーブルを作成する

そこで、まずは状態価値をまとめたQテーブルを作っておきましょう。

縦にプレーヤーの状態、横にディーラーの状態を採ります。

プレーヤーの状態を１２から２１までしか考えなくてよい理由は、１１以下だと自動的にヒットすることになるからです。

ヒットして追加される一番大きなカードはAですが、これを１１としてカウントすると２２となってバストしてしまいますが、１としてカウントすればよい話しなので、１１以下では考える余地なくヒットなのです。

プレーヤーのカードを乱数で生成する

次にプレーヤーのカードをシミュレーションするために乱数を生成します。

大抵は３回以内でステイすると思いますが、念のため９回分を生成しておきます。

ディーラーのカードは確定的です。

合計１７以上になるまで追加するので、誰がディーラーでも同じだからです。

ですので、これも乱数を生成した上で確定しておきます。

累積報酬を計算する

ここまで用意したら、報酬を計算していきます。

L列にプレーヤーの合計点が出ていますので、これを見て勝負がつく回を調べます。

プレーヤーは１８までヒットしますので、１８以上になった回が決着回です。

但し、２２以上でバストしてしまうと、ディーラーが手持ちのカードを披露する前に負けが確定しますので、バストの前の回に負けが確定し報酬が決定します。

このように勝負が付く回を「決着回」、報酬が確定する回を「決算回」として区別しています。

後は、下記のようにして累積報酬Gを計算します。

すると、この勝負では次のようにQ値を更新できます。

すべての状態のQ値の初期値はゼロとしています。

累積報酬G

プレーヤー：１２　＆　ディーラー：９⇒－１.９

プレーヤー：１７　＆　ディーラー：９⇒－１

更新Q値（学習率：０.２）

プレーヤー：１２　＆　ディーラー：９⇒(１－０.２)×０＋０.２×(－１.９)＝－０.３８

プレーヤー：１７　＆　ディーラー：９⇒(１－０.２)×０＋０.２×(－１)＝－０.２

VBAでQテーブルの更新を繰り返す

従って、初期のQテーブルは次のように更新されます。

以上を１つのエピソードとし、VBAを使って何度も繰り返します。

１０万回繰り返した後のQテーブル（状態価値表）は、次のように更新されました。

グラフにしてみるとこうなります。

青色のエリアがQ値の期待値がマイナス、つまり負ける確率の方が高い状態です。

概ねプレーヤーの合計値が１８未満の状態では、ディーラーの手持ちカードに拘わらず負ける確率の方が高くなっています。

一方、プレーヤーの合計値が１８以上であれば、勝つ確率の方が高くなっています。

１８以上になればステイするためバストするリスクはなくなり、ディーラーがバストせずに１８以上になる確率も高くないため、このようになることは納得できます。

但し、全体のQ値を合計するとマイナスになりますので、「１８以上になるまでヒットする」という戦略を多数回繰り返すとプレーヤーは損します。

いくつまでヒットし続けるのが最も勝率が高いのか？

では、この「１８」を変えたらどうなるか気になりますね。

１５から２０まで変えてやってみたところ、一番勝つ確率が高いのは「１６」になりました。

シミュレーションに時間がかかるため、１万回しか繰り返していません。

そのため先ほどのグラフより粗くなっていますが、傾向は掴めます。

１６になるまでヒットし続けますので、１６ではステイしますが、１６ではQ値はマイナス、つまり負ける確率の方が高くなっています。

これはバストするリスクはゼロですが、余りにも消極的すぎてディーラーの方が大きい数になる確率が高まってしまうためです。

それでも全体的には、この戦略が最も勝つ確率が高くなりました。

でも、この戦略は真似しないで下さい。

なぜなら、このシミュレーションではAを１１として固定的にカウントしているからです。

本来、Aは１または１１のうち、都合の良い数え方ができます。

例えば、手持ちのカードがAと７の場合、Aを１１としてカウントすれば合計は１８です。

ここでヒットして４が出たとすると２２になってバストしてしまいますが、Aを１としてカウントすれば１２ですのでバストしません。

このようにAが手元にあれば、合計が大きくてもヒットして冒険できるため、「１８以上になるまでヒットする」がセオリーになっています。

今回のシミュレーションでは簡単のため、Aを１１として固定的にカウントしているため、より保守的な結果になっています。

さて、これまで「？？以上になるまでヒットし続ける」という単純戦略について考察してきましたが、各状態によって？？を変える戦略の方が勝つ確率が高いのは明らかです。

次回はこれについて強化学習を使ってシミュレーションしてみます。

ブラックジャックの必勝法をExcelモンテカルロ法で強化学習したらこうなった。

ブラックジャックAI,カジノの確率,強化学習

Posted by ロジギーク