2022年12月21日
先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX(@shiropen2)にて更新中。
NVIDIAに所属する研究者らが発表した論文「PhysDiff: Physics-Guided Human Motion Diffusion Model」は、物理法則を拡散プロセスに組み込むことで、物理的にありそうな動作を生成する、新しいモデルを提案した研究報告である。3DCGのキャラクターにおいて、足などが地面と接地する動きにおいて起きる、足の浮遊、足滑り、地面の貫通などの実世界ではありえない不自然な現象を改善した、よりリアルに近い動きの生成を行う。
深層学習に基づく人体動作生成は、アニメーション、ゲーム、バーチャルリアリティに数多く応用されている重要なタスクである。人間の動作のマルチモーダルな分、布を捉えることができる条件付き生成モデルの学習が必要である。人間の動作は多種多様であり、人体の各部位間の複雑な相互作用により、その分布は非常に複雑なものとなる。最近の研究では、多様でリアルな人物モーションを生成するために拡散モデルが提案され、良い結果が期待されている。
しかし、既存の拡散モデルは、人間の運動の本質的な側面である物理の法則を見落としている。拡散モデルは、人体運動の分布をモデル化する優れた能力を有しているが、物理的な制約を強制する明示的なメカニズムや、力や接触によって引き起こされる複雑なダイナミクスをモデル化する機能はまだ持っていない。
その結果、生成される運動には、浮遊、足滑り、地面の貫通などの顕著なアーチファクトが含まれることが多い。このことは、アニメーションやバーチャルリアリティのような、人間が物理的な不正確さのわずかな手がかりに非常に敏感である多くのアプリケーションを著しく妨げる。
この問題に取り組むため、本研究では物理法則をノイズ除去拡散プロセスに組み込む、新しいモデル「Physicsguided motion diffusion model」(PhysDiff)を提案する。
PhysDiffでは、拡散プロセスにおいて、物理ベースのモーションプロジェクションモジュールが使用される。物理ベースのモーションプロジェクションモジュールは、物理シミュレータにおける動作模倣により、PhysDiffにおける物理的制約を強制するという重要な役割を果たす。
具体的には、大規模なモーションキャプチャデータを用いて、シミュレータ上でキャラクターエージェントを制御し、様々な入力動作を模倣することができる動作模倣ポリシーを学習する。その結果、物理的な制約が適用され、浮遊、足滑り、地面の貫通などのアーチファクトが除去された模倣動作が得られる。
また、一度学習した動作模倣ポリシーは、拡散ステップのノイズ除去された動作を模倣して、物理的にありそうな動作を出力するために使用することができる。本モデルのノイズ除去器は、最先端の運動拡散モデルのネットワークを採用している。
実験では、テキストからモーション生成とモーションからモーション生成の2つのタスクについて、PhysDiffを評価する。その結果、テキストからモーションへの変換では、大規模ベンチマークHumanML3Dにおいて、物理誤差を86%以上低減するとともに、モーション品質を20%以上向上させることができた。またモーションからモーション生成においても、HumanAct12で78%以上、UESTCで94%以上の物理誤差を改善し、FIDも競争力のあるスコアを獲得した。
Source and Image Credits: Yuan, Ye, Jiaming Song, Umar Iqbal, Arash Vahdat, and Jan Kautz. “PhysDiff: Physics-Guided Human Motion Diffusion Model.” arXiv preprint arXiv:2212.02500 (2022).
関連記事
人気記事