混合戦略と純粋戦略
「各プレイヤーがそれぞれの最適反応を選んでいる状態」、それがナッシュ均衡です。あるゲームがナッシュ均衡にならない場合、それは誰かが最適反応を選べていないと考えられます。
しかしゲーム的状況の中には、このナッシュ均衡が、そもそもない場合があります。例えば次のようなゲームです。
例題1
サッカーゲームのペナルティキック(PK)を考えます。キッカーはボールを右か左に蹴ります。対してキーパーはボールが蹴られてからでは間に合わないため、ボールが蹴られると同時にゴールの右か左にブロックに飛ばなくてはいけません。
キッカーが左に蹴り、キーパーが左に飛べば、100%の確率で得点を阻止できます。キッカーが左に蹴ったのに対し、キーパーが右に飛んでしまうと、キッカーは確実に得点します。
しかしキッカーはキーパーが左側に飛んでいても、右側へのシュートを50%の確率で外してしまいます。もしキッカーが右側にボールを蹴り、キーパーも右側に飛べば、100%の確率でブロックできます。
解説
この状況を利得表にすると下図のようになります。
図中の「○」はキッカーとキーパーそれぞれの最適反応です。キーパーが左を守る場合はキッカーは右に蹴るのが最適反応で、キーパーが右を守る場合は左に蹴るのが最適反応になります。
対してキッカーが右に蹴る場合はキーパーは左へ飛ぶのが最適反応、キッカーが左に蹴る場合はキーパーは右へ飛ぶのが最適反応です。
このように最適反応に「○」をつけていって、両プレイヤーの最適反応が重なったところがナッシュ均衡ですが、このゲームではそのような戦略の組み合わせがありません。すなわち、ナッシュ均衡がないのです。
この状況を解決するには「混合戦略」について知っておく必要があります。
混合戦略とは
混合戦略とは「複数の戦略を確率的に混ぜてプレイする」ことです。これに対して一つの戦略を確実に選ぶプレイの仕方を純粋戦略と呼びます。
「右にしかペナルティキックを蹴らないキッカー」「左にしかブロックに飛ばないキーパー」など、純粋戦略だけではペナルティキックで勝利することはできません。
「右ドリブルしかしないバスケット選手」「右フックしか打たないボクサー」「インコース低めへのカーブしか投げないピッチャー」など純粋戦略しか選ばないスポーツ選手は、間違いなく勝てないでしょう。
このような場合に役立つのが混合戦略です。「50%の確率で左右どちらにも蹴る」「50%の確率で左右どちらにも飛ぶ」を一つの戦略とみなしてゲームを考えます。
その上で「純粋戦略」と「混合戦略」両方を含めた戦略の中から最適反応を選ぶことで、ナッシュ均衡を実現するのです。戦略が有限であれば、混合戦略を含めれば必ず一つはナッシュ均衡が存在することが、数学的に証明されています。
混合戦略の場合の利得の考え方
混合戦略では「どの戦略を選ぶかは不確実」です。そのため混合戦略を選んだ場合の利得も、同じく不確実になってしまいます。
この時にプレイヤーが考えるのが「できるだけ利得の平均値(=期待値)を引き上げよう」ということです。この利得の期待値を「期待利得」と呼びます。
混合戦略を含めてゲームを考える場合には、この期待利得を求めなくてはなりません。
混合戦略のナッシュ均衡(混合ナッシュ均衡戦略)
複数の戦略を確率的に混ぜる戦い方が「混合戦略」です。1つの戦略を確実に行う「純粋戦略」だけではナッシュ均衡が実現できない場合でも、この混合戦略を使えば、必ず1つはナッシュ均衡が見つかることが数学的に証明されています。
ではどのようにして混合戦略のナッシュ均衡が実現されるのでしょうか。そのためには相手プレイヤーがどのような戦略をとっても、自分の期待利得が同じ値になるように、自分の混合戦略の割合を調節する必要があります。
以下ではこの混合戦略のナッシュ均衡について、具体例を用いて説明していきます。
例題2
上でで見たサッカーゲームのペナルティキック(PK)のモデルを使って、混合戦略を考えましょう。純粋戦略を前提とした利得表は以下の通りです。
これではナッシュ均衡が実現できません。そこでキッカーは混合戦略の戦略α(1/3で左に、2/3で右に蹴る)を、キーパーは同じく混合戦略の戦略β(2/3で左に、1/3で右に飛ぶ)を立てました。これをもとに作成した利得表が下図です。
キッカーが左に蹴り、キーパーが左に飛んだ場合の結果は純粋戦略の時と同じなので、各利得は純粋戦略の利得表と同じになります。ではこれによってどのようにナッシュ均衡が実現されるのでしょうか。
解説
「混合戦略のナッシュ均衡」におけるキーワードは「期待利得」です。期待利得とは利得の平均値を指します。キッカー、キーパーそれぞれが相手プレイヤーの各戦略に応じて得られる期待利得は次のようになります。
キッカーの「左に蹴る」という選択に対し、キーパーは戦略βに基づいてランダムに左右を選びます。この時、キッカーは2/3の確率で利得0(ブロックされる)、1/3の確率で利得1を獲得できます。
期待利得=2/3×0+1/3×1=1/3
これは「右に蹴る」という選択をした場合も同じです。キッカーは2/3の確率で利得1/2を、1/3の確率で利得0となります。それぞれの期待利得を見ると左に蹴っても右に蹴っても、どちらも1/3。等しくなります。
期待利得=2/3×1/2+1/3×0=1/3
これと同じ要領でキーパーの期待利得を計算すると、こちらはマイナス1/3です。
・左を守った場合
期待利得=1/3×0+2/3×(?1/2)=?1/3
・右を守った場合
期待利得=1/3×(?1)+2/3×0=?1/3
このようにどのような戦略を選んでも、自分の期待利得が同じ値になる状態を、「混合戦略によるナッシュ均衡」と考えます。
例題3
混合戦略の考え方を、「居酒屋ゲーム」に当てはめて考えてみましょう。とある居酒屋でよく会う飲み友達のXとYがいたとします。お酒を酌み交わせばよく話す間柄ですが、相手がどこの会社なのかも、お互いの連絡先も知りません。
ある週末、XとYは互いに「今日あいつが店にいたら飲みたいな」「いないのならまっすぐに家に帰ろう」と考えています。このときのナッシュ均衡は「両方居酒屋に行く」か「両方帰る」かのいずれかです。
ではXとYがそれぞれ1/2の確率で居酒屋に行き、1/2の確率で家に帰るという、混合戦略をとったとするとどうなるでしょうか。
解説
下図がXとYが混合戦略を選んだ時の利得表です。
サッカーのペナルティキックのモデル同様に、それぞれの期待利得を計算すると次のようになります。Xは居酒屋に行くと利得1を得られ、もし家に帰っても同じく利得1を得ることができます。
・居酒屋に行く場合
期待利得=1/2×2+1/2×0=1
・まっすぐ帰る場合
期待利得=1/2×1+1/2×1=1
対してYも居酒屋に行けば利得1、家に帰っても利得1です(計算式は同じ)。したがってXもYもどちらの選択をしても、常に最適反応になります(ナッシュ均衡)。つまるところ、「行っても帰っても同じ」というわけです。
混合戦略の「戦略性」
混合戦略は純粋戦略に比べて高度な駆け引きに見えますが、実はこれを用いるゲーム的状況によってはほとんど「戦略性」がない場合もあります。
例えばサッカーのペナルティキックのモデルで考えると、キッカーもキーパーも相手を惑わせるために戦略を確立的に混ぜ、混合戦略を立てるわけですが、対して居酒屋ゲームの2人は相手を惑わせる必要はないはずなので、「ただなんとなく半々の確率で行ったり行かなかったりするだけ」で選んでいる状況です。
前者には戦略性がありますが、後者にはありません。
まとめ
・混合戦略とは「複数の戦略を確率的に混ぜてプレイする」こと
・純粋戦略とは「一つの戦略を確実にプレイする」こと
・混合戦略では「50%の確率で左右どちらにも蹴る」自体を一つの戦略とみなす
・利得の期待値を「期待利得」と呼ぶ
・混合戦略を含めてゲームを考える場合は期待利得を求める必要がある
・混合戦略のナッシュ均衡は期待利得が同じ値をとる時に実現される
・混合戦略が採用されるゲーム的状況には「戦略性のない」ものも存在する
関連ページ
- ゲーム理論とは…意味を理解してビジネスの駆け引きの現場で活かす
- 交互進行ゲーム(逐次手番ゲーム)とゲームの木
- ゲーム理論の視点からオークションの仕組みを理解する
- ベイズ均衡(ベイジアンナッシュ均衡)
- 男女の争いとチキンゲーム
- コーディネーションゲーム(失敗と解決法)
- クールノー競争とベルトラン競争
- ゲーム理論の基本を理解する(囚人のジレンマ)
- ホテリングの立地ゲーム
- 情報非対称ゲーム(不完備情報のゲーム)
- ミニマックス定理
- 混合戦略と純粋戦略
- ナッシュ均衡を理解する
- 部分ゲーム完全均衡と後ろ向き帰納法
- 囚人のジレンマの解決法
- 戦略形ゲームのモデルを理解する
- 脅しのゲームと信頼のゲーム
- 交互進行ゲームにおける戦略と信頼性のない脅し