メタのAI技術「Make-A-Video」は、悪夢チックで新しいタイプのアートを創り出している【テッククランチ】

2022年10月7日

執筆者

Devin Coldewey

シアトル在住のライター兼フォトグラファー。2007年よりTechCrunchに寄稿。また、MSNBC.com、NBC News、DPReview、The Economist/GE’s Look Aheadなどにも寄稿している。

Meta(メタ)の研究者たちは「Make-A-Video(メイク・ア・ビデオ)」という創造的な名称の新手法でAIアート生成分野において大きな飛躍を成し遂げた。名称から想像がつくかと思うが、テキストプロンプトからビデオをつくるというものだ。つくられたものは素晴らしく、多様で、そしてどれも例外なく少し不気味だ。

テキストを動画に変換する「テキスト・トゥ・ビデオ(text-to-video)」モデルは以前にもあった。プロンプトから静止画を生成する「DALL-E」のような「テキスト・トゥ・イメージ」モデルの延長線上にあるものだ。しかし、静止画から動画への飛躍は頭の中で考えるぶんには大したことではないが、機械学習モデルで実現させるとなると容易ではない。

メイク・ア・ビデオは、実際にはテキスト・トゥ・イメージのモデルから、バックエンド部分をそれほど大きく変えてはいない。研究者は「画像を説明するテキストしか見たことのないモデルは、短い動画を生成するのに驚くほど効果的だ」と研究論文で説明している。

このAIは、既存の画像作成のための効果的な拡散技術を使用しており、基本的には純粋な視覚的且つ静的な「ノイズ除去」から、ターゲットとなるプロンプトに向かって逆方向へ働きかける。さらにこのモデルは、ラベル付けされていない大量のビデオコンテンツに対して、機械学習の手法の一つである教師なし学習(例えば人間から指図を受けずにデータそのものを調べることなど)が行われている。

まずはリアルな画像のつくり方を、次は動画の連続したフレームがどのようなものかを把握する。驚くことに、これらがいかに組み合わされるべきかについて、特別な訓練を受けていないにもかかわらず、非常に効果的に組み合わせることができる。

「空間的・時間的解像度、テキストへの忠実度、品質など、すべての面において、メイク・ア・ビデオはテキストでの動画生成において質的そして量的にも新しい最先端技術を確立した」と研究者は書いている。

この意見には激しく同意だ。これまでのテキスト・トゥ・ビデオシステムでは異なるアプローチをとっていた。成果物は期待できるものだったが印象的ではなかった。今回のメイク・ア・ビデオはそれらを打ち負かし、オリジナルのDALL-Eや他の旧世代システムで約18カ月前に生成された画像に匹敵する忠実度を達成した。

画像クレジット:Meta「A teddy bear painting a portrait」。出典:https://makeavideo.studio/

一方で、言っておかなければならないことがある。現段階の作成物を見ると、確かにまだ何か違和感があるのだ。フォトリアリズムや完全なる自然な動きを期待するべきではないが、出来上がったものはどれも一種の…いや他に言いようがないのだが、ちょっと悪夢のようなものなのだ。

画像クレジット:Meta「A confused grizzly bear in calculus class」。出典:https://makeavideo.studio/

夢のようでもあり、ひどいものでもある動画はやや低品質だ。動きは不思議で、ストップモーション映画のようだ。まるでオブジェクトが沁み込んでいるようで、変形や人工物がそれぞれの作品に擬人化されたシュールさを与えてしまっている。人は互いに溶け込んでいて、オブジェクトの境界線や、離したりくっつけたりすべきものへの理解はできていない。

画像クレジット:Meta「A golden retriever eating ice cream on a beautiful tropical beach at sunset, high resolution」。出典:https://makeavideo.studio/

僕は高精細でリアルな映像だけを求めるAI通の人間ではないが、これらの映像がある意味ではリアルであっても、別の意味ではとても奇妙で不快なものであることが魅力的だと思っている。このような映像を素早く任意に生成できるのはすごいことで、今後は良くなる一方だろう。しかし、どんなに優れたイメージジェネレータでも、はっきりと指摘するのが難しい超現実的な質感となる。

メイク・ア・ビデオは、イメージジェネレータが画像そのものに働きかけることができるのと同じように、静止画やその他の動画を変形または拡張させることも可能だ。ただできあがったものは少し不穏な空気を漂わせてしまっている。

この新技術は実に大きな前進であり、開発チームに賛辞を送りたい。まだ一般には公開されていないが、アクセス希望者はこちらからサインアップしてリストに登録できる。

From TechCrunch. © 2022 Verizon Media. All rights reserved. Used under license.

元記事:Meta’s Make-A-Video AI achieves a new, nightmarish state of the art
By:Devin Coldewey
翻訳:Nariko

関連記事

人気記事

  • コピーしました

RSS
RSS