ざっと落書きした絵をリアルな3Dモデルに変換する技術 米カーネギーメロン大が開発【研究紹介】

2023年2月28日

山下 裕毅

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX(@shiropen2)にて更新中。

米カーネギーメロン大学に所属する研究者らが発表した論文「3D-aware Conditional Image Synthesis」は、2次元コンテンツに応じた3次元オブジェクトを自動生成するpix2pix3D手法を提案した研究報告である。セグメンテーションや手書きによるエッジマップなどの2次元ラベルマップが与えられると、異なる視点から対応する画像を合成するように学習する。

▲このモデルは、セグメンテーションやエッジマップなどの2次元ラベルマップを入力として、高品質の3次元ラベル、ジオメトリ、外観を予測することを学習し、異なる視点からのラベルとRGB画像の両方をレンダリングする。各左側の画像1枚が2次元の入力、右側が3次元モデルの出力結果と編集の様子

研究背景

近年、生成モデルを用いたコンテンツ制作は大きな進展を見せ、ユーザーが制御可能な高品質な画像・映像合成が可能となっている。しかし、既存の画像間変換手法は、コンテンツの3次元構造を明示的に推論することなく純粋に2次元で動作する。

2次元情報を入力に3次元コンテンツを合成することは、非常に難しいのが現状だ。なぜなら、モデル学習のために、ユーザー入力とその出力がペアになった大規模なデータセットを入手するのにコストがかかるからである。また別の手法では、ユーザーが異なる視点から取得した2次元画像を複数枚必要としなければならないため手間がかかる。

研究内容

この研究では、ユーザーによる単一の2次元情報を入力に、3次元コンテンツを自動生成するモデルを提案する。このモデルは、生成だけでなく3次元での視点操作や編集も可能にする。

提案モデルは、2次元ラベルマップ(セグメンテーションマップや手書きによるエッジマップなど)、ランダムな潜在コード、カメラのポーズを入力とし、生成器がラベルマップと新しい視点からの画像をレンダリングする。

具体的には、まずエンコーダで入力ラベルマップと潜像コードの両方をスタイルベクトルにエンコードする。次に、変換したベクトルを用いて3次元表現を変調し、空間点から色、密度、特徴量、ラベルを出力する。最後に、ボリュームレンダリングと2次元アップサンプリングを行い、高解像度ラベルマップとRGB画像を得る。

▲パイプラインの概要図

学習したモデルは、セグメンテーションや手書きのエッジマップなどの2次元ラベルマップに応じた、異なる新しい視点からの3Dオブジェクトを出力する。

▲顔と猫のセグメンテーションから出力した3次元オブジェクト

また、推定された3Dラベルにより、任意の視点からラベルマップをインタラクティブに編集できる。

例えば、次の画像だと、車のスケッチから生成した車の3次元オブジェクトに対して、2次元スケッチをグリグリ視点方向を変えられる。

さらに、そのスケッチに対して後から部分的に消して書き加えることができる。書き加えたスケッチは3Dオブジェクトにも反映され、編集後の3次元オブジェクトが新たに生成される。例では、車のボディを丸くする編集を2次元スケッチに書き加え、丸みのある3Dボディを生成している。

▲2次元を変更する方法で3次元オブジェクトも編集できる

評価結果

本手法の出力結果を評価するため、既存の先端研究(Pix2NeRF variants、SoFGAN、SEANなど)の2次元及び3次元のベースラインと比較実験を行った。結果、本手法が既存の手法よりも優れた画質と位置合わせを実現しており、その性能の有効性を示した。

また、様々な設計上の選択の影響を明らかにし、クロスビュー編集や意味やスタイルに対するユーザー制御など、本手法の応用も実証し、実用性を示した。

▲CelebAMaskデータセットにおけるPix2NeRF 、SoFGAN、SEANとの定性的比較

Source and Image Credits: Kangle Deng, Gengshan Yang, Deva Ramanan, Jun-Yan Zhu. 3D-aware Conditional Image Synthesis

関連記事

人気記事

  • コピーしました

RSS
RSS