投稿日：2022/10/11　更新日: 2023/05/22　by kohei

Metaの動画生成AI「Make-A-Video」とは

画像からの「教師あり学習」と動画からの「教師なし学習」を組み合わせるアプローチ

今週のテーマ：技術開発

パロアルトインサイトの石角です。「The Insight」で何度も紹介してきた画像生成AIは、直近の数ヶ月間で一般の人が利用できるものが次々に登場し、SNSを通じて大きな話題となりました。

次に大きなトレンドとなると予想されるのが、動画生成AIです。2022年9月、Metaが「Make-A-Video」と名付けた新たな動画生成AIを発表し、注目を集めています。

シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回取り上げるのは、Metaが開発した動画生成AI「Make-A-Video」です。

💡この記事から得られる３つのナレッジ

・Make-A-Videoはどんな動画を生み出せるのか
・動画生成における事前学習の工夫
・生成された動画の品質の評価手法

論文データ：今回のディスカッション対象の論文をご紹介します。

タイトル：Make-A-Video: Text-to-Video Generation without Text-Video Data
著者：Uriel Singer et al.
掲載サイト：arXiv
発行日：2022年9月29日
引用数：
URL：https://arxiv.org/abs/2209.14792

📖この論文を選んだポイント

画像からの「教師あり学習」と動画からの「教師なし学習」を組み合わせるアプローチが斬新であるため。

📖この記事に登場する技術キーワード

教師あり学習

‣関連記事「弱教師あり学習によるデータ不足への対処法」

拡散法（Diffusion Methods）

‣関連記事「AIアートの最新技術「DALL·E 2」の創造力の凄さ」

DrawBench

Make-A-Videoによる動画生成の種類

Make-A-Videoは、2022年9月にMetaが発表した「動画を生成するAI」です。Make-A-Videoは以下の3種類の入力情報から、動画を生成できます。

📽️入力情報

文章
画像
動画

文章から生成

Make-A-Videoの最も主要な手法な用途は、「文章から動画を生成すること」です。短い指示文を与えるだけで、Make-A-Videoは文章の意味に合った動画を生み出します。

Make-A-Videoが生成した動画は公式サイトで公開されているので、見てみるとよいでしょう。公式サイトから2つ例を引用すると、以下の通りです。どちらの例でも、文章で指示された通りの動画が生成されていることが確認できます。

（画像引用：https://makeavideo.studio）

A dog wearing a Superhero outfit with red cape flying through the sky （日本語訳：赤いマントのスーパーヒーローの服を着て空を飛んでいる犬）

（画像引用：https://makeavideo.studio）

A young couple walking in a heavy rain （日本語訳：激しい雨の中を歩いている若いカップル）

画像から生成

Make-A-Videoは、入力情報として「文章」ではなく「画像」も扱えます。画像が1枚与えられると、Make-A-Videoはその前後の時間軸の画像を生み出し、画像をつなげて動画を生成します。

下図の例では、Make-A-Videoは左側の絵画の画像を入力として、右側の動画を生成しました。嵐の中を進む小舟の様子を、まるで現実の映像のように描写しています。

入力画像

（画像引用：https://makeavideo.studio）

Make-A-Videoの出力動画

（画像引用：https://makeavideo.studio）

また、Make-A-Videoは2枚の画像を入力として、画像間の時間を補完する動画を生成することも可能です。その例が下図で、無重力の宇宙空間にある岩が動いていく様子を表現しています。

入力画像

（画像引用：https://makeavideo.studio）

Make-A-Videoの出力動画

（画像引用：https://makeavideo.studio）

別バージョンの動画を生成

Make-A-Videoは「動画」を入力として、別の「動画」を生み出せます。オリジナルの動画の特徴を反映させつつ、少し異なるバージョンの動画を生成するのです。

その例が下図です。Make-A-Videoが生み出した動画は、「宇宙空間に浮かぶ宇宙飛行士」という点ではオリジナルと同じですが、まったく別の動画となっています。

入力動画

（画像引用：https://makeavideo.studio）

Make-A-Videoのアウトプット

（画像引用：https://makeavideo.studio）

Make-A-Videoの事前学習と技術

Make-A-Videoの技術的な側面を解説します。

動画には十分なデータセットがない

進歩が著しい画像生成AIと比べると、動画生成AIはまだまだ発展途上です。公開されているMake-A-Videoが生成した動画の中には、現実ではありえない動きをするものも混じっています。

動画生成AIの開発が遅れている理由としては、まず動画は画像よりも情報量が多く複雑だという点があります。それに加えて大きな要因となっているのが、「文章と動画の組み合わせ」のデータセットが少ないことです。

画像生成AIは、インターネット上から「文章と画像の組み合わせ」を大量に収集して学習することで、性能を高めました。しかし、動画では十分な「質」と「量」のデータセットを集められないため、画像と同じアプローチが有効ではないのです。

Make-A-Videoの事前学習の工夫

https://www.paloaltoinsight.com/membership-checkout/?level=4

　PAIoneerPRO会員に登録 ▷　
PAIoneer PRO
詳細はこちら

Already a member? ここでログイン

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏（CEO）が2017年に創業したシリコンバレー発のAI企業。

社名：パロアルトインサイトLLC
設立：2017年
所在：米国カリフォルニア州（シリコンバレー）
メンバー数：17名（2021年9月現在）

パロアルトインサイトHP：www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com

＜CEO 石角友愛（いしずみともえ）＞

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。東急ホテルズ&リゾーツのDXアドバイザーとして中長期DX戦略への助言を行うなど、多くの日本企業に対して最新のDX戦略提案からAI開発まで一貫したAI・DX支援を提供する。2024年より一般社団法人人工知能学会理事及び東京都AI戦略会議　専門家委員メンバーに就任。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授（AI企業戦略）及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート＆テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ！」内「マイ！Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ　ChatGPTとリスキリング』（日経BP）『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』（ディスカヴァー・トゥエンティワン）、『経験ゼロから始めるAI時代の新キャリアデザイン』（KADOKAWA）、『才能の見つけ方　天才の育て方』（文藝春秋）など多数。

実践型教育ＡＩプログラム「ＡＩと私」：https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com