Transcript
Page 1: Decision generalisation from game logs in no limit

Decision Generalisation from Game Logs in No Limit Texas Hold’em (2013, IJCAI)

Jonathan Rubin and IanWatson

東京大学工学系研究科システム創成学専攻大橋・鳥海研究室

梶原健吾とりらぼ輪読会

Page 2: Decision generalisation from game logs in no limit

背景• 2008 年,リミット・テキサスホールデムで 人間 vs ポーカー AI(Polaris) Polaris⇒ の勝利

• 研究対象:リミット⇒ノーリミット– ノーリミットはベット額の上限無し– AAAI or IJCAI で毎年ノーリミットのエージェン

ト大会が開催

Page 3: Decision generalisation from game logs in no limit

背景• ノーリミットでは勝てない– リミット:取りうる行動が fold,call,raise のみ– ノーリミット:レイズ額を指定可能⇒行動の

多様性

• 本論文は 2012 年の大会にて 5 位に入賞したエージェントに用いた理論の紹介である.

Page 4: Decision generalisation from game logs in no limit

本エージェントの主な特徴• Case-base の学習– 過去に行われたゲームから事例の抽出

• 行動の抽象化 (action abstraction)– 無数に存在するベット額⇒離散的に捉える

• 抽象⇔具体 の変換 (translation)– 実際のベット⇒ Abstract action

Page 5: Decision generalisation from game logs in no limit

Case-base の構築• 過去のゲームから特徴を抽出

Page 6: Decision generalisation from game logs in no limit

Action Abstraction の説明• ノーリミット:レイズ額が自由 →そのままだと case-base が膨大

• 行動を 10 種類に抽象化– フォールド– コール– 額の異なるレイズ (8 種類 )• ポットの 1/4, 1/2, 3/4, 1, 2, 5, 10 倍とオールイン

Page 7: Decision generalisation from game logs in no limit

Translation の説明• 実際のベットから Abstract action へ変換

• 2 種類の変換方法– ハードトランスレーション– ソフトトランスレーション

Page 8: Decision generalisation from game logs in no limit

ハードトランスレーション• 同じベット⇒必ず同じ Abstract action に変換– ポットの 3 倍のベット⇒ポットの 2 倍のベット

へ変換

• 相手にベット額をコントロールされ得る

      b: 実際のベット      a, c : Abstract action (a < b < c)

Page 9: Decision generalisation from game logs in no limit

ソフトトランスレーション• 確率的に Abstrac t action に変換– ポットの 3 倍のベット  ⇒ 4/7 の確率でポットの 2 倍に変換     3/7 の確率でポットの 5 倍に変換

Page 10: Decision generalisation from game logs in no limit

各 Translation の用途• Case-base の構築時– ハードトランスレーションを使用– 学習用のデータ⇒操られる心配無し

• 実際の対戦時– ソフトトランスレーションを使用– 観測する行動を確率的に変化させる

Page 11: Decision generalisation from game logs in no limit

状況の類似度• 現状は case-base のどの case に近いか

• Hand Strength Bucket, Stack Commitment, Betting Sequence, Board Texture, それぞれの類似度の合計で評価

Page 12: Decision generalisation from game logs in no limit

Hand Strength Bucket の類似度• ハンドの強さを [1, T] で表し,その差分で

類似度を表す

– f1,f2 :ハンドの強さ– k :定数– T=50

Page 13: Decision generalisation from game logs in no limit

Stack Commitment の類似度• Stack Commitment を [1, N] で表し,その差

分で類似度を表す

– f1, f2 : Stack Commitment– N=4

Page 14: Decision generalisation from game logs in no limit

Betting Sequence の類似度• Fold, call, raise の 3 種類の並びが同じもの• 8 つのレイズを 1,2,…,8 で表し,類似度を計

– S1,i ,S2,j :各レイズを表す自然数 (1~8)– α :定数

Page 15: Decision generalisation from game logs in no limit

Board Texture の類似度• 説明無し

Page 16: Decision generalisation from game logs in no limit

行動の決定• Case-base Abstract action⇒– ( 詳しい手法は説明無し… )

• Abstract action⇒ 実際のベット– 誤差項を付け加えてベット

Page 17: Decision generalisation from game logs in no limit

結論• 複雑な不完全情報ゲームにおいて扱う

データを抽象化  ⇒過去のプレイを元にプレイすることが可能

• ポーカーの AI の大会 (ACPC) にて, 5 位入賞

Page 18: Decision generalisation from game logs in no limit

感想• トランスレーションと類似度の考え方は人狼にも

応用出来るかも?– 人狼の場合は確率的にプレイヤーを選択しても,論理

だった嘘はつけない.嘘のシナリオを確率的に選択するとか.

• プレイヤー個人の性質を無視していいのか– 初めてオールインした相手と,毎回オールインしてる相

手を同じ扱い?

• 5 位入賞…と言いつつ参加者 11 人.微妙な


Recommended