超訳・Counterfactual Regret Minimization

no_?thumbnail no_?thumbnail

最終更新日が2023年以前の記事です。レイアウト変更のため、正常に表示されない場合があります。

私が普段取り扱うゲームはだいたい零和不完全情報ゲームなので(二人ではないこともあります)、これについて知識を深めようとするとゲーム理論の話は避けては通れません。

中でも特に、強化学習について知ることはとても重要だと思っています。2018年にポーカープロと互角以上に渡り合ったAIであるLibratusや、現在では当たり前になった将棋の局面の評価値を出す数々のソフトにもその技術は利用されています。今やこの手のゲームを最高のレベルで議論しようと思ったら、避けては通れない道なのです。

最近私がちょこっとかじったのがCFRというアルゴリズムです。今回はこれについて、軽くお話ししようと思います。

……と宣言して、さらっと解説ができればいいのですが、私は大学以上の数学は習ってないのでほとんど何も知りませんし、プログラミングも100%独学です(そもそも私は薬学の人間です)。前提知識のない人間がこれを何とか理解しようとするとどういう感じになるのか、という感じで読んでもらえればと思います。

細かい話は置いておいて、CFRというアルゴリズムの概要はこんなものになります。

https://qiita.com/bakanaouji/items/f70d7948931c96d94ef8 より引用

なにこれウケる。

高校までの数学しか履修したことのない人間は、まず記号の意味を理解しないとこの式を読むことすら許されないんですよね。11行目なんかは不思議の国のゲンゴです。あとこれは別にこの話題に限った話ではないですが、英語ができないとこの世界では詰みです。こんなことを日本語でやさしく書いてくれている論文なんかありゃしません。さようなら。

幸いにして私の第一印象は「すげーがんばれば読める(気がする)」だったので、とりあえずこれを超訳しようと思ってます。