TOPコラム海外最新IT事情手書きした絵コンテの人物画を3Dキャラクターに自動変換する「Sketch2Pose」　不自然なポーズも自動修正【研究紹介】

手書きした絵コンテの人物画を3Dキャラクターに自動変換する「Sketch2Pose」　不自然なポーズも自動修正【研究紹介】

2022年7月21日

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX（@shiropen2）にて更新中。

カナダのUniversité de Montréalによる研究チームが開発した「Sketch2Pose: Estimating a 3D Character Pose from a Bitmap Sketch」は、手書きで描かれた1枚のスケッチからその人物の3Dキャラクターのポーズを再構築する深層学習フレームワークだ。姿勢のバランスや身体部分の長さが不自然な人物画でも、システムが補正し整った3Dヒューマノイドキャラクターに仕上げる。

▲手書きスケッチから実際に出力した3Dキャラクター例。入力画像：上段©Olga Posukh、下段© Brad Regier

keyboard_arrow_down 研究背景
keyboard_arrow_down 研究過程
keyboard_arrow_down 実証実験

研究背景

現代のデジタルメディア制作では、絵コンテの初期段階で、アーティストがキャラクターのスケッチを描くことが多い。数分で描かれることも多く、アイデアを直感的に把握し、他のメンバーにポーズを伝える手段となっている。アーティストはこの自然で自由なスケッチを参考にしながら、アニメーションソフトで3Dキャラクターのポージングを手作業で行う。

しかし、この手作業によるポージングは特別なトレーニングが必要な上、1ポーズあたりラフ原稿でも数分かかるなど、面倒で時間のかかる作業である。プロにとっては創作意欲を削がれ、制作スピードが落ちるフラストレーションの溜まる作業であり、3Dアニメーションソフトの知識がない人にとっては専門的なトレーニングが必要で、アイデアを実現するための障害となる。

研究過程

この課題に対して本研究では、キャラクターの単一のラスタースケッチがあれば、完全な3Dキャラクターポーズを自動計算する深層学習フレームワークを提案する。このフレームワークは、ジェスチャー画、詳細なキャラクタースケッチ、より抽象的な絵画調の絵など、さまざまな絵の入力に対応する。

またオクルージョン、歪んだプロポーション、余分なストロークやシェーディングの要素を含む多くの異なるスタイルのスケッチを処理することができ、前処理なしに自然のスケッチを直接利用することが可能である。

このような2D画像を3D画像に変換する手法は、これまでにも多く研究されてきたが、今回は生身の人間が写った写真とは異なりキャラクタースケッチが入力なため勝手が違う。写真内の人物は本物なため完璧なポーズがもともと備わっているのに対し、スケッチは人が想像したものであるため、身体部位の長さがおかしくバランスが取れていない、比率が不自然な関節位置、非現実的な体型など、乏しい表現力で描かれていることが多い。

▲キャラクタースケッチにおける歪みの主な原因の1つは、描かれた体の部位の長さが信頼できないこと。右端の（d）は黒色がベストな長さで、赤色が長すぎ、青色が短すぎるを意味している

これらの問題を解決するために不可欠と思われる、キャラクターの描画の3つの要素、すなわち「2D骨の接線」「自己接触」「短縮法」を中心に分析を行った。例えば、2次元の関節の位置は信頼性が低いが、2次元の骨の接線は3次元の骨の方向を示す有力な指標になる。描かれた自己接触は、描かれたポーズの理解に重要であり、未知の身体部分の長さや角度を明確にするための強い手がかりとなり得る。

▲（左）入力されたスケッチ（中央）専門家が手動でポーズをとったキャラクター（右）本システムで自動作成した出力結果

本フレームワークは、先ほどの骨の接線、自己接触、短縮法の3つを予測するサブシステムが含まれ、入力された図面から2次元の関節位置を予測して3次元人体モデルに位置合わせしていく。

この3つの最適化システムにより、自然画による不正確さが補正され、画像の手がかりに対してリアルなポーズをバランスよく再現することができる。

実証実験

研究チームは、学習用にキャラクタースケッチの2Dポーズアノテーションの最初の大規模データセットを作成した。このデータセットには14,462個の骨格が含まれ、各骨格には関節の位置を示す18個の2次元ラベルが手動で付与されている。また約1000枚の画像には自己接触位置の2次元情報が含まれている。さらに、多様なアーティストから収集した310枚の高解像度ラスターキャラクタースケッチを含む小規模なデータセットを収集し、注釈を付けている。

類似研究との比較実験では、本フレームワークが出力する3Dキャラクターの方が先行研究よりも良好な結果を示し、その有効性が実証された。