人間ではゲームでAIに勝てない話

チェスや将棋など、1対1の思考ゲームで人間がAIに負けたのは随分前です。
1997年にはIBMさんが開発したDeep Blueがチェスの世界王者に勝利しましたし、チェスよりルールが複雑な将棋も、2014年に強化学習という手法が取り入れられてからわずか3年後の2017年にはAIが勝利しています。

それでも、複雑な状況下で、意思疎通とチームワークが必要とされるゲームでは、まだ人間には勝てていませんでした。
ところがアルファベット(Googleの親会社)傘下のAI開発企業が制作したAI「エージェント」がとうとう人間に勝ってしまったそうです。

AFP通信の記事からです。


FPSゲームのキャプチャー・ザ・フラッグを使用

使用したのはFPSゲーム*1の「クエイクⅢアリーナ」のキャプチャー・ザ・フラッグモード*2です。
チームメイトと連携し、時には攻め、時には守るという複雑な状況判断とチームワークが要求されるモードです。

今回のテストでは、AI「エージェント」に自己学習をさせ、人間のプレイヤー(プロのテストゲーマー)と対戦できるまで訓練を積ませました。
その結果、人間のプレイヤーたちの勝率は25%程度しかなく、AIの反応速度を故意に低下させ、人間の水準に合わせた状態でも人間のプレイヤーを上回っていたそうです。


早い思考と遅い思考

ここで使われた学習法も強化学習です。

強化学習では目標を設定(ここでは『旗を奪う』)し、目標を達成することで「報酬が得られる」ことを教えていきます。
更にそこに、「早い思考」と「遅い思考」に2つの意思決定モジュールを組み合わせているそうです。

ダニエル・カーネマンの著作「ファスト&スロー」によると「人の意思決定は直感的に働くシステム1(早い思考)と理性的な思考を行うシステム2(遅い思考)の2つによって行われる」とされています。
これをAIの学習に取り入れ、「二つの時間スケール」学習という新たな構造が考案されました。
「素早く考えて素早く考えを更新するエージェント」と「ゆっくり考えてゆっくり考えを更新するエージェント」に分け、2種類の考えが互いに影響し合う状態にしたということです。

そうすることで、「早い思考」が即座に判断を下した後、「遅い思考」が判断ミスや合理性を判断し、修正することが可能になります。
人間の場合は「遅い思考」は怠け者*3なので、そのままミスを見逃すことが多々あります。
これがバイアス(思い込み)となりますが、AIにそれはありません。
人間が苦手なことはAIが得意なことです。


こうなってくると、もう人間はAIにゲームで勝てません。
そのうちチートとして利用するユーザも出てくるんでしょうね。

内容を報じたAFP通信の記事では軍事利用への懸念にも触れられています。
研究チームは、いかなる軍事・監視プロジェクトにも関与しないと名言し、レポートの中でも「撃つ(shoot)」という語は(おそらく意図的に)使用していません。

それでも遅かれ早かれどこかが軍事転用します。
軍事転用されることを前提に「どう防衛するか」を考えるには、使われている基礎技術が分からないと話になりません。
この辺りが日本はいろいろ立ち遅れている(技術者不足、予算不足etc...)気がしてどうもヤキモキしている今日この頃です。


*1:ファーストパーソン・シューティングゲーム
プレイヤーの自己視点で戦うゲーム

*2:複数のプレイヤーがふた手に分かれて旗を取り合う旗取りゲーム

*3:「ファスト&スロー」によると、人間が統計的な数字を把握するのが苦手なのはこのため