TOPコラム海外最新IT事情YouTubeなど動画内の人を3Dモデルで抜き取る技術　米ワシントン大とGoogle Researchが「HumanNeRF」開発【研究紹介】

YouTubeなど動画内の人を3Dモデルで抜き取る技術　米ワシントン大とGoogle Researchが「HumanNeRF」開発【研究紹介】

2022年2月14日

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX（@shiropen2）にて更新中。

米ワシントン大学とGoogle Researchの研究チームが開発した「HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video」は、単眼カメラで1方向から撮影した映像から、動く人物の自由視点レンダリングを生成する技術だ。YouTubeなどで複雑な動きをする人物の見えない背中など裏側も含め、どの方向から見ても高忠実度に再現されるフル3Dレンダリングを可能にする。

keyboard_arrow_down 先行研究
keyboard_arrow_down 実証実験
keyboard_arrow_down 実験結果

先行研究

昨今、NeRF（Neural Radiance Field）に代表される、深層学習を用いて2次元画像から自由視点の3次元画像を生成する技術が注目されている。画像からそこに写る物体を抜き出し、その物体を360度どの方向から見ても正確に表現できる技術だ。

しかしこれら手法は、異なる視点から撮影された対象物の静止画像を複数枚用意し入力に使用しなければならない。そのため、1方向からのみで物体を自由視点で高品質に抜き出すのは非常に難しい。また今回は人間を対象とするため、衣服のひだや髪の毛、体のポーズ、顔の表情などの細かいディテールを合成時に考慮しなければならない。

実証実験

HumanNeRFと呼ばれる今回の手法は、単眼カメラで撮影した1視点の映像を入力に、任意のフレームで一時停止したシーンに映る人物を自由視点の3Dモデルとして抜き出す。止まっている置物などの物体ではなく、ダンサーなどのダイナミックに動作する服を着た人物の全身を対象とする。

本手法では、動画の各フレームの被写体（動画内の対象の人物）の画素情報（observation）を使って、被写体のT字ポーズ（canonical appearance）を作成する。この時点で、異なるフレーム間の被写体の画素の色をT字ポーズに集約できるため、360度どこから見ても写実的に見える状態がつくれる。

つまり、動画には正面や横、後ろなどの様々な角度で映る被写体が混ざっているため、それら全てをT字ポーズに一旦集約させて、360度どこからでも写実的に見えるようにしている。

後は、一時停止したい任意のシーンに映る被写体のポーズの画素情報から、先ほどのT字ポーズに画素をマッピングする。一致するように再配置するだけで、T字ポーズが必要なもの（被写体の画素の色や密度）をすべて備えているため、自由視点のレンダリングがサポートされる。

今回、T字ポーズの作成と一時停止したいシーンの被写体のポーズからT字ポーズにマッピングするために、フレームベースのモーションフィールドを最適化している。モーションフィールドでは、ポーズ駆動型の骨格剛体運動と非剛体運動（服や髪など）に分解し、両者を深層学習ネットワークで表現する。さらに、既存の3Dポーズ検出器で抽出したポーズデータによる誤差を考慮し、体の姿勢をフレームごとに最適化している。

実験結果

実験では、ZJU-MoCapデータセット、研究者らで撮影した映像データ、インターネットからダウンロードしたYouTube動画で本手法を評価する。最先端の手法であるNeural Body（複数のカメラを使用）、およびHyperNeRF（対象の周りに単一の移動カメラを使用）と比較した結果、数値的に最先端技術を凌駕し、視覚的な品質も大幅に向上したことが示された。

Source and Image Credits: Weng, Chung-Yi, et al. “HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video.” arXiv preprint arXiv:2201.04127 (2022).https://arxiv.org/abs/2201.04127