音楽から3Dアバターのダンスを高品質に自動生成するAI スウェーデンの研究者らが技術開発【研究紹介】

2023年5月26日

山下 裕毅

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX(@shiropen2)にて更新中。

スウェーデン王立工科大学(KTH Royal Institute of Technology)に所属する研究者らが発表した論文「Listen, denoise, action! Audio-driven motion synthesis with diffusion models」は、音声から3Dアバターの動きを自動生成する学習モデルを提案した研究報告である。さまざまな音楽に合わせたダンスモーションの生成品質は非常に高く、これまでのモーション生成モデルを凌駕している。

研究背景

一般的に音声ジェスチャーやダンスは、音の文脈と強く結びついているため、適切な動きを実現するには、音の文脈を十分考慮する必要がある。

音声から動きを生成するタスクにおいてもとても重要になる。しかし、音声駆動型モーションの生成は困難を伴う。ジェスチャーは個性的で、非決定的であり、一般に音声によって十分に決定されないからである。ダンスも同様で、通常は拍子や小節などの音楽構造と同期しているが、そうでない場合は、1つの楽曲や演奏のジャンルであっても、さまざまな形態を取ることがある。

機械学習では、このような曖昧で大きな変動に対応することは困難であり、非常に強力な確率的モデルでなければ正確に捉えることはできない。説得力のある制御可能なモーション合成モデルがまだ存在していないため、高価なモーションキャプチャや、高価なアニメーションの形で、手作業に頼らざるを得ないのが現状だ。

研究内容

他方で、拡散モデルは、高い表現力と学習効率を持つ確率的モデルとして最近注目されている。今回、この拡散モデルを音声駆動型モーションタスクに適用したのが本研究となる。

具体的には、3Dポーズシーケンスのモデリングを行うために、オーディオ合成のための拡散確率モデル「DiffWave」アーキテクチャを使用し、モデリング能力を向上させるために「Conformer」(TransformerとCNNを組み合わせたアーキテクチャ)を組み込む。

学習用データセットには、プロのダンサーの様々なダンススタイルを収録した独自作成のMotorica danceデータセットを活用する。このデータセットには、6時間以上の音楽と、8つのスタイルのダンス(ヒップホップ、ジャズ、チャールストン、ロッキング、タップ、クランピングなど)を撮影した高品質のモーションキャプチャが収録される。

これらによって学習したモデルに音楽を入力すると、3Dキャラクターが音楽に合わせてダイナミックに動き、高品質な合成ダンスモーションを生成する。

▲ロッキングスタイル(上)とクランピングスタイル(下)の学習済み拡散モデルから合成されたダンスシーケンス

実証実験

実験では、音声駆動型モーション生成のさまざまなアプリケーションといくつかのデータセットを使用し、主要な深層学習生成モデルベースラインに対して本手法を幅広く評価した。実験の結果、本モデルがモーションの品質という点で、これまでの最先端モデルを上回ることが実証された。

また提案アプローチの応用として、音に合わせた格闘技の動作や、講演の声に合わせた全身のジェスチャーなども高い品質で出力し、性能の高さが実証された。

さらに高品質なダンスモーションを合成する結果に加え、提案アプローチは、与えられた経路をたどる様式化された歩行モーションを生成するタスクにも応用できることがわかった。100STYLEデータセット(100種類の異なるスタイルの運動について、400万フレーム以上のモーションキャプチャデータが含まれたデータセット)を用いて学習させた提案モデルは、要求されたターンや速度変化に適応しながら、多くのスタイルで自然な歩行モーションを任意の軌道に沿って生成することができた。

具体的には、スキップや両足ジャンプ、キックしながらの歩行などの簡単なモーションから、鳥や昆虫、ゾンビのモノマネをしながらの複雑なモーションまで、同じ歩行経路上で連続的に動作させることに成功した。

▲様々な動き(スキップ、鳥の真似、ゾンビの真似など)をしながら同じ経路を歩行している様子

Source and Image Credits: Alexanderson, Simon, Rajmund Nagy, Jonas Beskow, and Gustav Eje Henter. “Listen, denoise, action! Audio-driven motion synthesis with diffusion models.” arXiv preprint arXiv:2211.09707 (2022).

関連記事

人気記事

  • コピーしました

RSS
RSS