2023年2月15日
先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX(@shiropen2)にて更新中。
シンガポールの南洋理工大学に所属する研究者らが発表した論文「SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections」は、インターネットで公開されている風景の2D画像コレクションから無限の3Dシーンを生成する手法を提案した研究報告である。3Dの一貫性、明確な奥行き、自由なカメラ軌道を持ち、様々なスタイルの多様な風景を合成することができるという。
3Dコンテンツ制作は、メタバースにおける3Dクリエイティブツールのニーズの高まりに対応するため、近年、大きな注目を集めている。3Dコンテンツ制作の核となるのは、2Dの観察結果から3D表現を復元することを目的とした手法である。3Dアセットを作成するためのコストと労力を考えると、その場にある2D画像から生成モデルを学習し、3Dコンテンツを自動で作成することが理想的な1つの形態だろう。
他方で、画像から3Dオブジェクトを生成する研究では、人物やモノなどの領域が決まっているオブジェクトであれば、対象の異なる視点からの複数枚の2D画像データから高品質に復元するモデルが登場している。しかし、任意に広い領域をカバーする鮮明な風景など、インターネットで無造作に公開されている2D画像から無限の3Dシーンを生成するモデルはまだ発展途上である。
この研究では、3Dアノテーションを一切使用せず、カメラパラメータを持たない2D画像から無限の3Dシーンを生成することを学習するフレームワーク「SceneDreamer」を提案する。
目的は、実環境の2次元画像コレクションのみから、無境界3次元シーンのための生成モデルを学習することである。そのために「BEV Scene Representation」、「Generative Hash Grid」、「Unbounded 3D Scene GAN」という3つのモジュールからなるシステムを提案する。
まず「BEV Scene Representation」では、効率的な3次元点のサンプリングと学習を目的として、高さフィールドとセマンティックフィールドからなるBEV(鳥瞰図)シーン表現を導出する。高さフィールドは3Dシーンの表面の高さを表し、セマンティックフィールドはシーンの詳細な意味付けを示す。
次に「Generative Hash Grid」ではNeural hash gridという手法を用い、敵対的学習を容易にするために、シーン表現を潜在的空間に空間変動潜在特徴とシーン変動潜在特徴を用いてパラメータ化する。
最後に「Unbounded 3D Scene GAN」では、スタイルベース生成器を用いて、3次元点の潜在的特徴をブレンドし、ボリュームレンダリングにより2次元画像を描画する。
一度学習が行われれば、無条件に多様な3Dシーンを生成することが可能である。また生成される景観の照明、天候、スタイルなどの変更もできる。
評価実験のために、インターネット上に存在する1,135,662枚の自然画像から、「風景」をキーワードとする大規模なデータセットを作成した。暗すぎる画像、一般的でない比率の画像、グレースケールの画像などは除去している。
実験では、様々な最先端の3D生成モデル(GANcraft、EG3D、InfiniteNature-Zero)に対して定量的・定性的なテストを行なった。その結果、どのモデルよりもSceneDreamerの方が、3D形状の正しさとビューの一貫性を維持する能力を示し、精度の高さを示した。
Source and Image Credits: Chen, Zhaoxi, Guangcong Wang and Ziwei Liu. “SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections.” (2023).
関連記事
人気記事