画像1枚から操作可能なゲームを生成できるAIモデル「Genie」 Google DeepMindなど開発【研究紹介】

2024年2月27日

山下 裕毅

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX(@shiropen2)にて更新中。

Google DeepMindやカナダのブリティッシュコロンビア大学に所属する研究者らが発表した論文「Genie: Generative Interactive Environments」は、画像1枚から、操作可能なビデオゲームを生成できるモデルを提案した研究報告である。

テキストから生成された画像や、実世界の写真、手書きスケッチなど、Genieが見たことのない未知の画像をプロンプトとして、インタラクティブに制御可能なゲーム環境を生成できる。

▲Genieは画像1枚から操作可能なビデオゲーム環境を生成することができる。

研究内容

このモデルは、公開されているインターネットゲーム動画の20万時間分を超える大規模データセットから学習されており、アクションラベルの注釈なしで学習が行われている点が特徴である。このことは、インターネットビデオに通常含まれていないアクションの実行情報や画像の制御部分に関するラベルがなくとも、Genieがどの部分が制御可能かを学習し、生成された環境全体で一貫性のある多様なアクションを推測できることを意味している。

プロンプトには、テキストから生成された画像、手書きのスケッチ、実世界の写真の3種類があり、生成された環境は左・右への動きやジャンプといった一般的な操作を可能にする。

▲3種類のプロンプトからのビデオゲーム生成
▲アクションラベルのないトレーニングにもかかわらず、同じアクションが様々なプロンプトフレームで一貫しており、さらに左、右、ジャンプなどの意味を持つ制御を可能にする。

このモデルは、「Latent Action Model」「Video Tokenizer」「Dynamics Model」の3つの主要コンポーネントから構成されている。Latent Action Modelはフレームのペアごとに潜在的なアクション情報を推定し、Video Tokenizerは生のビデオフレームを離散的なトークンに変換する。Dynamics Modelは、これらのトークンと潜在アクションを用いて次のフレームを予測する。

これらのコンポーネントは連携して、さまざまなプロンプトから直感的に操作可能な、インタラクティブなゲーム環境を生成する。

さまざまなモデルサイズでの機能分析を行った結果、システムは追加の計算リソースを効率的に活用し、最終的には110億パラメータ数を持つモデルを実現した。

▲Genieモデルの学習パイプライン

研究結果

本手法の汎用性を実証するため、アクションのないロボットビデオを含むデータセット上で別のモデルの訓練も行われた。この訓練を通じて、ユーザー操作で一貫したアクションを持つロボティクス環境を学習できることが確認された。

▲Genieをロボティクスに適応した際の制御可能で一貫性のあるアクション

さらに、インターネットビデオから学習したアクションを、アクションのない強化学習(RL)環境の未確認のビデオからポリシーを推定するのに利用できると明らかになった。これは、Genieが次世代の汎用エージェントを訓練するために必要な無限のデータへのアクセスを提供する可能性があることを示唆している。

▲未知のRL環境の画像があれば、多様なアクションを生成できることを示した。

研究課題

一方で、Genieは他のトランスフォーマーモデルの弱点をいくつか受け継いでおり、非現実的な未来を予測することがある。

また、現在は16フレームのメモリに限定されており、長い時間軸で一貫した環境を得ることは困難である。さらに、現在の動作速度は1FPSであり、効率的なフレームレートでのインタラクションを実現するためには、将来的な進歩が必要であるとしている。

▲生成されたビデオゲームは、操作によって多様な経路を辿る。
▲生成されたビデオゲームは、操作によって多様な経路を辿る。

Source and Image Credits: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel. Genie: Generative Interactive Environments

関連記事

人気記事

  • コピーしました

RSS
RSS