3Dシーンの「要らない物」だけを消せる技術「3Dインペインティング」 カナダの研究者などが開発【研究紹介】

2023年3月13日

山下 裕毅

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX(@shiropen2)にて更新中。

カナダのSamsung AI Centre Torontoとトロント大学、ヨーク大学、Vector Institute for AIに所属する研究者らが発表した論文「SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural Radiance Fields」は、3Dシーン内の要らないオブジェクトだけを除去して、消した箇所を周囲と調和するように埋める3Dインペインティング技術を提案した研究報告である。

▲4つの3Dシーンにおいて、一部のオブジェクトを消した様子

研究背景

NeRF(Neural Radiance Field)の登場により、異なる角度から撮影した複数枚の写真を入力に新しいビュー合成による高品質な3Dシーンの構築ができるようになった。NeRFがより広く利用されるようになると、NeRFで表現されたシーンを編集・操作するニーズが高まり、さまざまな派生のアプリケーションが登場した。

一方、デジタルの写真(2次元の静止画像)に対する編集方法の1つに、インペインティングという画像内の要らない物だけを消せる手法がある。画像内の要らない領域を消し、消した領域を周囲のシーンと似た画像で補完するというもので、仕上がりはあたかもその要らない物がなかったような出来栄えになる。

ただ、既存の2Dインペインティング技術では3Dに対応しておらず、NeRFの派生アプリケーションにもオブジェクトの除去を可能にするものはあるが、除去した空間に対して周囲と調和した補正を行うものはない。

研究内容

このインペインティング技術を3Dシーンに適応したのが今回の研究となる。今回の3Dインペインティング技術を一言でいうと、シーンの複数枚の画像と最小限のユーザー入力で3Dセグメンテーションマスクを抽出し、マスクされた画像にNeRFを適合することで、ターゲットオブジェクトをもっともらしい3Dの外観と形状に置き換える、となる。

▲3Dセグメンテーションマスクを抽出する3Dインペインティングフレームワークの入力と出力の概要

具体的には、まずシーンから撮影された画像複数枚とそれに対応するカメラパラメータを入力に加え、ユーザーはシーンから削除したいオブジェクト上にいくつかの点(アノテーション)を1枚の画像に付け加える。これらの点は、他のすべての入力画像に自動的に転送され、マルチビューマスクの構築に利用される。

次に、上記入力セットからビデオセグメンテーションアルゴリズムによって各画像に対して一貫性のないセグメンテーションマスクを取得する。マスクの一貫性と品質を改善するために、Semantic-NeRFを適合することで整合性が取れた3Dセグメンテーションマスクを得る。

取得した3Dセグメンテーションマスクと入力画像から、ターゲットオブジェクトが存在する通常のNeRFと、ターゲットオブジェクトを除去した(ただし視点の不整合はある)インペイントRGB画像のセットを得る。

通常のNeRFは深度値の計算に使用され、これを3Dセグメンテーションマスクによってインペイントしてターゲットオブジェクトを消した深度画像を得る。最後に、インペイントされたRGB画像セットとターゲットオブジェクトを消した深度画像を用い、インペイントされた3Dシーンを出力する。

▲3Dセグメンテーションマスクからインペイントされた3Dシーンを出力するまでのパイプラインの概要

実証実験

実験において、広範な定性的・定量的評価を通じて、本アプローチの有効性を実証する。まずNeRFベースの手法や2Dセグメンテーションアプローチと比較して、マルチビューセグメンテーションに対するアプローチの優位性を示す。

次に、3Dインペインティング手法を比較するためのベンチマークがないため、「グランドトゥルースインペインティング」(オブジェクトのないシーンの実画像)が利用できる新しいデータセットを作成した。結果は、 本アプローチが代替の2Dおよび3Dインペインティングアプローチを大幅に凌駕した。

▲(左)入力画像(中央)対応するターゲットオブジェクトマスク(右)3Dインペインティング後の画像

Source and Image Credits: Mirzaei, A., Aumentado-Armstrong, T., Derpanis, K. G., Kelly, J., Brubaker, M. A., Gilitschenski, I., & Levinshtein, A. (2022). SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural Radiance Fields. arXiv preprint arXiv:2211.12254.

関連記事

人気記事

  • コピーしました

RSS
RSS