DeepMind のコンピューター科学者らは、人気のリアルタイム戦略ビデオゲーム「StarCraft II」で世界最高のプレイヤーに勝つことができる人工知能ボットを開発した。
本日Nature誌に掲載された新たな研究論文では、StarCraft IIをグランドマスターレベルでプレイできる初の人工知能エージェント「AlphaStar」について解説されています。DeepMind社が開発したこのシステムは、StarCraft IIの公式ゲームサーバーであるBattle.netにおいて、アクティブプレイヤーの99.8パーセンタイルを上回るランキングを獲得しています。これはStarCraft IIコミュニティにとって非常に大きな成果ですが、このシステムの優れた能力はAI研究者にとっても重要な成果です。同様のアプローチは、現実世界における複雑な問題の解決や、機械知能の適用範囲拡大に応用できる可能性があるからです。

グーグルの親会社アルファベット傘下の英国拠点のディープマインドは、これまでにチェス、囲碁、将棋を超人的なレベルでプレイできるシステムを開発したが、スタークラフトIIは全く異なる課題を提示した。
ブリザード・エンターテインメントが2010年にリリースした『StarCraft II』は、SFをテーマにしたリアルタイムストラテジーゲームで、2人のプレイヤーが対戦します。プレイヤーは、それぞれ独自の長所、短所、そして特異な性質を持つ、テラン、プロトス、ザーグの3つのエイリアン種族から1つを選んでプレイできます。
StarCraft IIは、その複雑でオープンエンドなゲームプレイにより、AI研究者の関心を集めてきました。チェスや囲碁とは異なり、プレイヤーは状況に関する不完全な情報しか持たないため、その点ではポーカーに似ています。また、このゲームには膨大な意思決定空間が伴い、各タイムステップでプレイヤーが実行できるアクションは1026通り以上あります。プレイヤーは、ゲームの勝敗が決まるまでに数千ものアクションを実行できます。
StarCraft IIは、ゲーム理論に基づいたシナリオ、長期的な計画、そしてリアルタイムゲームプレイがもたらす難しさも伴います。そのため、このゲームはAI研究者の間で「壮大な挑戦」とみなされています。勝利するために、プレイヤーは資源の収集に奔走し、それを使って基地や建造物を建設し、対戦相手を倒すための強力な新技術を開発します。ゲームはターン制ではなく、リアルタイムで展開されます。マップの大部分はプレイヤーから隠されているため、対戦相手の動きを偵察し、それに応じて戦略を調整する必要があります。ゲームは通常5分から20分程度ですが、試合は1時間以上続くこともあります。
これらすべてが、歴史的に見てAIエージェントが、ゲームを単純化しても人間の最高のプレイヤーに匹敵できなかった理由の一つです。最終的に高いレベルでプレイできるシステムを開発するために、コンピューター科学者のオリオル・ヴィニャルズ氏とDeepMindの同僚たちは、模倣学習と強化学習を組み合わせた汎用学習アルゴリズムを用いてニューラルネットワークを訓練しました。
模倣学習とは、その名の通り、AIが人間のゲームプレイを模倣することで学習する学習方法です。この戦略だけで、AlphaStarはStarCraft IIプレイヤーの84%を上回る成績を達成しました。強化学習は、システムに指定された目標を効率的に達成するよう動機付けることで機能します。ポイントを獲得したり失ったりすることで、システムはその目標を達成するための効果的な戦略や方針を採用します。
AlphaStar はトレーニングの一環として、ゲーム戦術をさらに強化し、より優れた戦略と対抗戦略を考案するために、継続的に自分自身と対戦しました。
2018年12月に行われたシステムの初期テストでは、DeepMindの研究者がAlphaStarをTeam LiquidのGrzegorz “MaNa” KominczとDario “TLO” Wünschという2人のワールドクラスのプレイヤーと対戦させ、両者ともあっさりと敗北した。
しかし、究極の課題は、AlphaStarが標準的なプロトーナメントの条件下でプレイすることでグランドマスターの地位を獲得することでした。具体的には、システムはStarCraft IIの世界をカメラを通して捉え、3種のエイリアン種族のいずれかとしてハイレベルで対戦し、人間のプレイヤーと同じマップを使用し、人間のゲームプレイに匹敵するアクションレート(Wünschが承認したレート)を適用し、Battle.netゲームサーバーでプレイするなど、様々な条件を満たす必要がありました。
このような状況下でも、AlphaStarは高いレベルのプレイを披露し、StarCraftに登場する3種のエイリアン種族全てでグランドマスターランクを獲得しました。プロがプレイするeスポーツにおいて、AIがこのレベルに到達したのは初めてのことであり、ゲームの簡易版での動作といった従来の制約を一切受けることなく、この偉業を達成しました。
https://gizmodo.com/superhuman-ai-crushes-poker-pros-at-six-player-texas-1836257695
「これは、あらゆる時点で多数の行動から選択でき、ゲームは数千の行動に及ぶ、難解な2人用不完全情報ゲームにおけるAIの成果として、極めて印象的なものです」と、カーネギーメロン大学のコンピュータサイエンス教授で、この研究には関与していないトゥオマス・サンドホルム氏は、ギズモードへのメールで述べています。「彼らのAIは人間のプレイを模倣することから始まり、強化学習を用いて自ら改善を続けます。」
プレスリリースで、スタークラフトIIのプロプレイヤー、ディエゴ・“ケラズール”・シュワイマー氏は、このAIエージェントを「興味深く型破りなプレイヤー。トッププロに匹敵する反射神経とスピードを持ちながら、独自の戦略とスタイルを持つ」と評した。同じくプロプレイヤーのチームリキッド、グジェゴシュ・“マナ”・コミンツ氏は、「このエージェントが人間のプレイヤーとは異なる独自の戦略を展開していく様子を見るのは刺激的だ」とコメントした。
AlphaStarの素晴らしいパフォーマンスにもかかわらず、サンドホルム氏はまだ改善の余地があると考えています。実際、StarCraft IIのプロプレイヤーによるコメントには、このシステムの潜在的な弱点が示唆されていました。
「AlphaStarのゲームプレイは信じられないほど素晴らしいと感じました。このシステムは戦略的なポジションを非常に巧みに評価し、対戦相手といつ交戦し、いつ離脱すべきかを正確に把握しています」と、Team Liquid所属のStarCraft IIプロプレイヤー、Wünsch氏は述べた。「AlphaStarは優れた正確な操作性を備えていますが、超人的な操作感はありません。ましてや、人間が理論上到達できないレベルではありません。全体的に見て、非常に公平な操作感で、まるで『本物の』StarCraftをプレイしているかのようです。」
サンドホルム氏のチームは、6人制テキサスホールデムでプロポーカープレイヤーに勝利できるAI「Pluribus」の開発も担当している。研究者たちはPluribusの前身である2人制AI「Libratus」にこの種のテストを実施したが、この厳しいテストの後、「トッププロでさえ、12万回ものゲームを繰り返したにもかかわらず、Libratusに勝つことができなかった」とサンドホルム氏は説明する。その後、「Libratusは、中国で行われたある試合で、過去の試合をすべてビデオストリームから収集し、コンピューターで分析していたにもかかわらず、強力なプロチームに勝利した」とサンドホルム氏は述べ、さらに「2人制のゼロサムゲームでは、相手がこちらの戦略を知っていたとしても、ゲーム理論に基づいた戦略は無敵だ」と付け加えた。
「このアプローチは、ポーカーにおける近年のAIの画期的な成果ほど戦略的、ゲーム理論的な側面が洗練されていないため、AIが悪用される可能性が高い」と彼は述べた。「人間が意識的にAIと何万回も対戦し、AIの弱点を見つけ出すような評価方法を見るのは興味深いだろう。」
DeepMind チームがさらに進歩するために、サンドホルム氏は、彼のチームが Pluribus と 6 人制のテキサス ホールデム ポーカーで達成したのと同様に、2 人以上のプレイヤーが関わるリアルタイム ゲームを研究することを推奨しました。
AIに関するこれらの新たな知見は、システムが複雑な現実世界の問題を解決したり、機械知能の汎用性を向上させたりするために、他の分野にも応用できる可能性があります。しかし、画期的な進歩が続くにつれ、人間がAIよりも優位に立つ領域はますます少なくなっていくでしょう。