TOPコラム海外最新IT事情「いらない人やモノ」だけを映像からキレイに消す技術「ProPainter」　シンガポールの研究者らが開発【研究紹介】

「いらない人やモノ」だけを映像からキレイに消す技術「ProPainter」　シンガポールの研究者らが開発【研究紹介】

2023年10月2日

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX（@shiropen2）にて更新中。

シンガポールの南洋理工大学に所属する研究者らが発表した論文「ProPainter: Improving Propagation and Transformer for Video Inpainting」は、動画内の指定した不要な動く物体を後から編集で消す技術を提案した研究報告である。これは、動画の欠損部分を修復するビデオインペインティングという技術を用いて、あたかも存在しなかったかのように除去するものである。

▲左が入力動画。右が車だけを消した出力結果。車から出る煙は消えていないのが確認できる。

keyboard_arrow_down 研究背景
keyboard_arrow_down 研究内容
keyboard_arrow_down 実証実験

研究背景

従来のビデオインペインティング技術は、動画の各部分を相互に比較して計算するため、解像度が高い、または動画が長い場合、計算量が非常に多くなり、大量のメモリが必要になる。

また、従来のビデオインペインティング技術には、「画像ベースの伝播」と「特徴ベースの伝播」の2つの方法が存在し、どちらの方法も一定の欠点がある。

画像自体を利用して動画の欠けた部分を補完する前者の方法は、完全ではないため、不自然な部分やズレが生じることがある。後者の方法は、画像の背後にある特徴（例：色のトーンや形）を利用して動画を修復するが、この方法でも画像がぼやけたり、テクスチャが欠けることがある。

研究内容

この研究では、これらの課題を克服する新しいビデオインペインティング技術「ProPainter」を提案する。これは、「画像ベースの伝播」と「特徴ベースの伝播」を統合した手法であり、両方の情報を同時に学習する。

この方法では、まずターゲットとなる映像シーン（オブジェクトや背景）の動き情報を取得する。しかし、この動きの情報は完璧でないため、取得した情報を用いてオブジェクトが次の瞬間にどこに移動するかを予測し、その後修正する。

この修正は、取得した動きの情報を用いて、あるフレームの画像を変形させ、次のフレームの形や位置に合わせる技術を利用する。具体的には、2つの連続するフレーム間での各ピクセルの動きを計算し、その際に検出した誤差を修正する。これにより、より正確な動きの予測を可能にする。

次に、動画の欠損部分を補完するため、「Dual-domain Propagation」という、2つの異なる「領域」で情報を伝播させる手法を採用する。ここでの2つの領域とは、「画像領域」（大まかな全体的な画像）と「特徴領域」（局所的な詳細な色やテクスチャ）を指す。

画像領域の伝播においては、予測した動きを基に、欠損部分があるフレームに隣接するフレームの情報を取り入れ、欠損部分を埋める。この手法だけでは不十分であるため、特徴領域での伝播も組み合わせて行う。

特徴領域の伝播においては、まずオブジェクトや背景の細かい特徴を抽出する。そして、その特徴の詳細を基に、隣接するフレームからの情報を取り入れて欠損部分を埋める。

「Dual-domain Propagation」により、画像領域での大まかな修復と特徴領域での詳細な修復を組み合わせることで、全体的に欠落や不自然な部分を効果的に修復できる。

最後に、補完作業を微調整する。ただし、すべての部分を調整するのではなく、特定の部分を重点的に修正するための方法、すなわち「Mask-Guided Sparse Transformer」を使用する。この方法により、他の手法に比べて40倍以上の処理速度向上と大幅なメモリの節約が実現される。これらのことによって修復したビデオは、あたかもそこにオブジェクトがなかったかのように一貫して除去される。

▲ProPainterのDemo。（左上）入力動画。（右上）消したいオブジェクトを指定している様子。（左下）ターゲットオブジェクトをマスクした状態。（右下）女性を消した後の動画。

実証実験

実験では、最先端のモデル（FuseFormer、FGT、E2FGVIなど）との性能を比較した。その結果、ProPainterは他の方法に比べて優れた補完能力を有しており、より高品質で自然な動画を生成できることが示された。

Source and Image Credits: Zhou, Shangchen, Chongyi Li, Kelvin CK Chan, and Chen Change Loy. “ProPainter: Improving Propagation and Transformer for Video Inpainting.”