TOPコラム海外最新IT事情画像1枚から永久に続く“空飛ぶシーン”をつくれる技術　Googleなどが開発【研究紹介】

画像1枚から永久に続く“空飛ぶシーン”をつくれる技術　Googleなどが開発【研究紹介】

2022年8月23日

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX（@shiropen2）にて更新中。

米Google Research、米Cornell Tech, Cornell University、米UC Berkeleyの研究チームが開発した「InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images」は、1枚の画像から鳥が飛行しているような自然なシーンを永遠に自動生成する学習ベースのシステムだ。

本手法は、カメラのポーズやマルチビューデータを必要とせず、学習中に動画を見ることなく1枚の写真（RGB画像）のみから自然シーンの永続的な新規ビュー生成を学習する。

▲本手法は単一画像からの永続的なビューを生成する。単一のRGB画像入力があれば、本手法は学習中に一度も動画を見ることなく、連続した長いカメラの軌跡に対応する新しいビューを生成する

keyboard_arrow_down 課題
keyboard_arrow_down 研究内容
keyboard_arrow_down 評価

課題

インターネット上には、世界中の息を呑むような風景をとらえた何百万枚もの自然景観の写真がある。近年の視覚とグラフィックスの進歩により、このような写真を魅力的な3D画像に変換することができるようになった。しかし、ほとんどの先行研究は、頭の動きに対応する限られた視野の範囲内でしか、シーンの内容を外挿することができていない。

より視野が広がるアプローチとして、任意の長いカメラ軌道を持つ移動カメラから撮影したシーンを連続的に描写する「永久視野生成」と呼ばれる手法がここ最近登場した。シーンの大規模な拡大が行えるため、ゲームやバーチャルリアリティへの応用が期待できるとされている。

これらを実現するには、カメラが世界を移動するとき、モデルは未見の欠落領域を調和的に埋める必要があり、新しいシーンコンテンツがカメラに近づくと新しい詳細を追加しなければならず、その一方でフォトリアリズムと多様性を維持する必要がある。

本質的に永久視野生成は映像合成タスクであるが、ポーズ付き映像が必要なためデータ収集が大きな課題となる。自然風景の多様で高品質な長時間の動画を大量に入手することは困難であり、ましてやこれらの動画に対して正確なカメラのポーズをスケールで推定することは困難である。

研究内容

本研究では、各シーンのマルチビューやカメラ情報を必要とせず、1枚の写真のみから永久視野生成を学習する新しい手法「InfiniteNature-Zero」を提案し、これらの課題に挑戦する。

本手法は、より少ない情報量にもかかわらず、マルチビューデータを必要とする先行手法の視覚的品質を向上させる。これはバーチャルカメラの軌跡と計算損失を利用することで、高品質な永久視線生成結果を得ることができるためである。

具体的には、周期的なバーチャルカメラ軌道を用いた自己教師あり視点合成戦略を導入し、マルチビューデータなしで視点合成を生成するための学習用ネットワークを提供する。さらに、新規なビューの長いシーケンスを生成するための敵対的な学習を採用し、長いバーチャルカメラ軌道に沿ったビューの生成を実行する。

評価

本手法を2つの自然風景データセットで評価し、最近の教師ありビデオ合成やビュー生成の手法と比較する。その結果、本手法は学習時にシングルビューの写真しか必要としないにもかかわらず、マルチビューデータで学習した最先端のベースラインと比較して、優れた性能を発揮した。

Source and Image Credits: Li, Zhengqi, Qianqian Wang, Noah Snavely and Angjoo Kanazawa. “InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images.” ArXiv abs/2207.11148 (2022): n. pag.