【ポケモンで理解する】ゲーム理論を勉強したお (戦略形ゲーム編)
読んだ。
内容のうちポケモン対戦に当てはめられる部分を解説(?)していく。
時間がかかりそうなのでとりあえず戦略形ゲームの部分だけ。
戦略形ゲーム
ゲーム理論は価格交渉、対人ゲーム、販売戦略など(必ずしも現実のゲームだけが対象ではない)、お互いが取れる行動とそれに対する結果がわかっている状況において最適な選択肢を求めていく。
その表記法と解析方法は、主に
・戦略形ゲーム
・展開形ゲーム
に分けられる。今回は前者をポケモン対戦で例えてみる。
図はあるターンにドラパルトとドリュウズが対面している状況で、簡単のために
そのターンの行動として選択できるとする。
例えばドラパルトがりゅうのはどう、ドリュウズがアイアンヘッドを選択した場合、(急所やダメージ乱数、は一旦すべて無視して)
・ドラパルトはドリュウズのHPを30%削り、
・ドリュウズはドラパルトのHPを40%削った。
この30, 40 という数字を表の中に書いた。
この場合、30をドラパルト側の利得、40をドリュウズ側の利得 という。この場合は相手へのダメージ量であるが、各プレイヤーの有利不利につながる何らかの指標を設定して具体的な数字で表すということである。
このように、両者が戦略(行動)を同時に選んで互いの利得が確定するようなゲームを戦略形ゲームという。
支配戦略
上記のような表があらかじめ作成できるとして、どの戦略が最適か、つまり、りゅうのはどうを打ったほうがいいかシャドーボールを打ったほうがいいかをあらゆる方法で考えていく。その一つが支配戦略の考え方である。
上記の例でドラパルト視点では、ドリュウズがアイアンヘッドを打とうが、じしんを打とうが、シャドーボールを選択した方が自身の利得が高くなる(ポケモン交代を想定していないため、単に威力の高い技が有効)。
このとき、シャドーボールはドラパルト側の支配戦略であると言う。同様にドリュウズ側ではじしんが支配戦略となる。
このように、他のどの行動よりも絶対的に優位な行動があるときはそれが支配戦略となり、そのままゲームの解になる。
ナッシュ均衡
支配戦略が存在しないときにどうするか、ということを考える。例えば下記の例。今度はドリュウズ側にカビゴンに交代できる選択肢があるとする。この場合ドラパルト側の利得はカビゴンへの与ダメージとする。
ドラパルト視点で、
・ドリュウズが(交代せずに)アイアンヘッドを打つ場合はシャドーボールを打った方が利得が高く、
よって支配戦略は存在しない。
このようなとき、両プレイヤーがお互いに合理的な判断をした結果、どのような戦略に"落ち着く"のかを考える。ここでは答えだけ述べると、
「相手の戦略を固定した状態で、自分の戦略を他のどれに変えても自分の利得が上がらないとき、その戦略組はナッシュ均衡である。」
実際に、
・(りゅうのはどう、アイアンヘッド)という戦略の組があるとき、ドラパルト側には行動をシャドーボールに変えて利得を上げるという余地がある。したがってナッシュ均衡ではない。
・(シャドーボール、アイアンヘッド)という戦略の組は、ドラパルト、ドリュウズ共に自分だけ行動を変えても利得は上がらない。したがってナッシュ均衡である。
手作業での求め方だが、相手の各戦略が固定されているとして、その戦略に対して有効な自分の戦略を見つけ、そのときの自分の利得に下線を引く。相手視点で同様の作業を行い、両者の利得に下線が引かれている戦略組がナッシュ均衡である。
なお、ナッシュ均衡は複数存在することもある。
※この例の場合、実はナッシュ均衡を使わなくてもまだ支配戦略を用いた考え方でゲームを解くことができる。まず、ドリュウズ側には支配戦略(アイアンヘッド)があるためこの行動を確実に選択する。これを前提にするとドラパルト側は表左列で利得が高い行動を選べばよく、(シャドーボール、アイアンヘッド)という解を導出できる。
不完備情報ゲーム
ポケモン対戦の場合はここからが重要になってくる。
まず、ポケモンで例えると相手ポケモンの持ち物、努力値振りなどによって上記のような利得行列は変化する。このように、ゲームに影響を与える様々な情報がプレイヤー間で完全に共有されていないゲームを、不完備情報ゲーム(※)という。
たとえば下図のようにドリュウズの持ち物によって利得行列はバリエーションを持つ。このときの具体的なドリュウズの情報(対戦用語でいうと「型」)を、ゲーム理論ではタイプという用語で表す。さらに、情報を持っていないドラパルト側は、このドリュウズの各「タイプ」に対して推測確率を持つ。そしてこの推測確率をもとに、期待利得を計算していくことになる(次節)。
※似ているが、「不完全情報ゲーム」という用語とは意味が異なる。
不完備情報の戦略形ゲームの解き方(ベイズナッシュ均衡)
不完備情報戦略形ゲームにおいては、下図のような利得行列を作成してナッシュ均衡を求める。
不完備情報を持つドリュウズ側は、タイプAとタイプBそれぞれに別の戦略を当てはめる。(そして実際に、たとえばタイプAを使っている場合はタイプAの方の戦略を実行する)。ドラパルトの各行動に対する結果的な利得は前表を参照する。
ドラパルト側は実際にドリュウズの「タイプ」はわからないが、それぞれが推測確率を元に出現していると仮定して期待利得を求める。図中の計算例の通り、
・ドラパルトの行動
・タイプAのドリュウズの行動
・タイプBのドリュウズの行動
・タイプAとタイプBがそれぞれどの割合で出現するか(推測確率)
を元に表のような利得行列を作成していく。
その上で、各プレイヤーの各タイプについて相手の戦略を固定した最適戦略探索(前述の下線引き作業)を行う。結果として、
・ドラパルト:りゅうのはどう
という戦略組は下記のことが確認できることから、このゲームの解であるベイズナッシュ均衡となる。
・(アイヘ、アイヘ)という相手の戦略が固定されているとき、シャドーボールが最適戦略
・シャドーボールという自分の戦略が固定されているとき、ドリュウズタイプAはアイヘが最適戦略
・シャドーボールという自分の戦略が固定されているとき、ドリュウズタイプBはアイヘが最適戦略