ベイズ推定を用いた

ポーカーハンド推定

自己紹介

名前：津田伸秀

サイト： http://vivi.dyndns.org/ twitter：vivisuke

facebook：https://www.facebook.com/nobuhide.tsuda

ぼちぼちソフト作家、年齢不詳のおじさん、自宅研究員（主席）

趣味：テニス、オセロ、思考ゲーム・パズル類

C++/Qt/Cocos2d-x 使い, 一応webアプリ（PHP, JS, jQ, SQL）も出来るよ

Windows用テキストエディタ ViVi を延々開発中

世界最速「さくさくエディタ」も開発中だよ

パズルアプリ（Android・tmlib）も公開中だよ

迷走中、お仕事募集中でござるぞ

通常の研究開発報告

Background
問題点
オリジナルな解決方法の提案
実装・結果検証
まとめ、今後の課題

今日のお話

Background
問題点
オリジナルではない解決方法の解説 ← ここまで
実装・結果検証
まとめ、今後の課題

Background

二人零和確定完全情報ゲーム

AI vs 人間トップ

chess(10^120): カスパロフ vs Deep Blue 1997
Othello(10^60): 村上九段 vs Logistello 1997
将棋(10^220)：三浦九段 vs GPS将棋 2012
囲碁(10^360)：セドル九段 vs AlphaGO 2016

バックギャモン：二人零和不確定完全情報
- 2000年台初期にAIが世界チャンピオンを破る？
ホールデムポーカー：N人零和不確定不完全情報
- 人数が多いほど、不確定なほど、状態数が多い
- 全探索が得意なAIには不利になる
- リミテッドヘッズアップ：数年前？にAIが世界チャンピオンに勝利
- 通常のN人アンリミテッドでは人間トップが強い
人間に残された唯一の希望？＞ホールデムポーカー

Texas Hold'em Poker

ワールドワイドには一般的なポーカーのプレイ方法
- カジノでは最もポピュラーで人気が高い
２人（ヘッズアップ）～１０人でプレイ可能
手役の勝ち負けだけで競うのではなく、チップ額で競う
プリフロップ、フロップ、ターン、リバーの４ベットラウンド
リングゲーム、トーナメント等の形式がある
- リングゲーム：
  - カジノでプレイされる。
  - 出入り自由
- トーナメント：
  - 試合等で採用
  - バーストすると退場。
  - 上位に残ると賞金ゲット

AI Texas Holdem Poker Offline

AI Texas Holdem Poker Online

http://vivi.dyndns.org/games/Holdem/
Android/iOS/Windows/Mac 版があるよ
Google Play
- 「テキサスホールデム」：検索１位
- 「texas holdem poker」：検索36位

FCCR デシジョンアルゴリズム

確率論的乱択アルゴリズム
- Fold, Check, Call, Raise
モンテカルロ法により勝率を推測
ポッドオッズ・リターン率を計算し、行動を確率的に選択
- 例：勝率が 1 （ナッツ）であれば 99%の確率でレイズ
- 例：リターン率が 1 未満であっても、１％の確率でレイズ（ブラフ）
特定勝率、リターン率の時のFCCR率を決めるのも難しい
- 自己対戦で決める？
- ナッシュ均衡理論を用いる？

AI Holedm Poker の課題

オンラインランキング
- http://vivi.dyndns.org/games/poker/form/rank.php
- トーナメントリターン率（総賞金額/総参加費）：0.83
- ヘッズアップリターン率（総獲得額/総ベット額）：1.04
RRが1.0付近に調整
- 強ければいいというものではない
- 世界チャンピオンの勝つのが目標ではない
が、それにしてもヘッズアップが弱い傾向にある
- ヘッズアップの勝率を少し上げたい
- できるだけ不自然でないプレイをさせたい
現状：プレイヤーのハンドレンジを全く考慮していない
- ハンドレンジ：手札範囲のこと

ベイズ推定を用いた

ポーカーハンド推定

ベイズ推定（１）

ベイズ確率の考え方に基づき、観測事象（観測された事実）から、推定したい事柄（それの起因である原因事象）を、確率的な意味で推論すること（wikipedia より）
- 主観確率推定とも呼ばれる
- 事前、事後確率：プレイヤーの手札確率
- 観測事象：プレイヤーの行動
事象 A のとき事象 B が観測される確率を P(B|A) と表記
事象 A, B がともに起こる確率： P(B|A)*P(A) = P(A|B)*P(B) なので、
P(B|A) = P(A|B)*P(B) / P(A) ← これがベイズ推定の式

ベイズ推定（２）

仮説：H1, H2, H3, ...
- ΣP(Hi) = 1.0
発生した事象：D
仮説 Hi の時に事象 D が発生する確率：P(D|Hi)
事後確率：P(Hi|D) = P(D|Hi) * P(Hi) / P(D)
ΣP(Hi|D) = 1.0 なので、P(D) は予め計算せず、後で正規化してもよい
- P(Hi|D) = P(D|Hi) * P(Hi) * C
- Hi の事後確率 = Hi の時にDが起こる確率 * Hi の事前確率 * 正規化定数

ベイズ推定をポーカーに応用（１）

最も簡単な（ノーリミテッド）ヘッズアップに応用
プレイヤーの手札を C1, C2 とする
- CPUの手札を除くと、場合の数は 50*49/2 = 1225
- 最初は何の情報もないので、各手札の確率は 1/1225
- double 型、要素数 52*51/2 = 1326の配列を作り、上記で初期化
- ただし、CPUの手札の部分は確率 0
- これがプレイヤー手札の事前確率となる

ヘッズアップ画面

ベイズ推定をポーカーに応用（２）

プレイヤーの行動により、手札の各確率を更新
- Fold した場合は、計算する必要は無い
- 各手札での実際に行った行動の確率を予め決めておく or 計算し、それを事前確率に乗じることで、事後確率を計算する
- P'(C1,C2) = P(C1, C2) * P(CCR);
- 事後確率を正規化 ΣP'(Ci, Cj) = 1.0
手札の各確率を元に、勝率を計算
- 各手札ごとにモンテカルロ法で勝率計算し、加重平均
- Pwin = ΣPwin(Ci, Cj) * P(Ci, Cj)

ベイズ推定をポーカーに応用（３）

フロップ・ターン・リバーの場合は、コミュカードを含む手札確率を0に設定
以上で、勝率をより正確に推定可能になり、勝率が向上すると考えられる

to be continued.

今後の課題

実装
自己対戦による強さ評価
ヘッズアップ以外にも適用

ベイズ推定を用いたポーカーハンド推定

By Nobuhide Tsuda

ベイズ推定を用いたポーカーハンド推定

3,710

Nobuhide Tsuda