ダビンチリゾルブでAIを使ったミュージックビデオの作り方を紹介します。
ダビンチリゾルブにも多くのAI機能が搭載されていますが、企画から作詞、作曲、演出や絵コンテの元となるプロットの作成、そのイメージをもとに生成した静止画から動画作成までを紹介します。
技術は常に進化しているのですぐに変わるかもしれません。メモとしてご利用ください。
AIを使ったミュージックビデオの作り方を紹介するよ
ダビンチリゾルブのマルチカムの紹介ビデオを作ろうと思ってたんだけど、バグかなんかで
立ち上がらなくなっちゃったから…
AIでミュージックビデオを作ることにしたよ
ダビンチリゾルブのベータで作業中に立ち上がらないというトラブルがありましたが…DaVinci Resolve 19も正式版がリリースされ、順調に作業が終了。マルチカムの紹介ビデオも無事完成しました。
どうやらバグの原因は、Fusionに持ち込んだソースの計算方法にあったみたいです。正式版では修正され、新しいスティンガーやFusionタイトル、Fusionトランジションも追加されたのでバージョンアップをオススメします。
AIミュージックビデオの題材を決める
テーマは「温故知新」。デジタルで高画質になってくると昔のフィルムの撮影スタイルに近づいてくるよねという話です。
それはさておき…
まずは、完成したAIミュージックビデオはこちら。
作り方はこちらです。
題材を決めたら早速AIに放り投げます。OpenAIのChatGPTで歌詞を作成します。
ChatGPTは生成AIでメジャー級のサービス。
ChatGPT(チャットジーピーティー)は、米OpenAI社が提供している深層学習を使った対話型(チャットボット型)の生成AIサービスです。質問を投げると具体的な解決方法を提示してくれます。
アカウントを登録すれば、限定的ですが無料で使うことができます。
単刀直入に…「温故知新の歌を作ってほしいので歌詞を教えてください」と聞いてみます。
曲のセクションである、Verse(Aメロ)とChorus(サビ) Bridge(Cメロ)とOutro(アウトロ)も教えてくれます。
次にスタイルを質問します。
スタイルは楽曲サービスの演奏と曲調になるので英語化しておいた方が吉です。生成AIサービスでは「プロンプト」という言葉がよく使われますが、AIが理解しやすい単語の羅列を与えると、目的にあった回答を得やすくなります。
MicrosoftはCopilot、GoogleはGeminiという検索型のAIを利用できますが、一発では歌詞を作成してくれませんでした。
SUNOでテキストから音楽を生成する
SUNOはテキストから音楽を生成するサイト。無料で利用できるバージョンとプレミアバージョンがあります。無料版は商用利用できないので、収益化を考えてる人は課金が必要。無料でも毎日10曲 50クレジットが付与されます。実質作り放題。
アカウントを作ってログインしたら、クリエイトを押してカスタムを選択するとリリックで歌詞を入力してスタイルを指定可能。
タイトルは日本語も反映されます。
歌詞の漢字の部分は読みが違ったりするので注意。ミュージックビデオでも前半は日本語がおかしなことになってます。大切な部分はひらがなで入力することをオススメします。
現在の3.5バージョンだと最大4分の音楽が作れ、曲はエクステンドで延長可能。
作成された楽曲はMP3とビデオがダウンロードできます。他にもUDIOやLondMeといったサービスもある感じ。
次はClaudeでプロットを作っていきます。
Claudeでプロットを作る
ClaudeはAnthropicという会社が提供してる対話型生成AIです。AnthropicはOpenAIの開発方針に異を唱えスピンアウトした企業。より人間的なAIの使い方を目指しています。文章を解析して分析する能力に特化し、シナリオやプロットなどの物語を作っていくのに適しています。
Googleアカウントがあれば登録とログインがとても便利。
プロットは物語の骨組み。シナリオで細かいシーンに割っていきます。ミュージックビデオはセリフがないので、映像でストーリーを構成していきます。
ミュージックビデオは音楽に付帯するビデオ。主役は音楽です。映像的にはノンジャンル、なんでもありな感じ。ダンスや演奏シーンだけでもいいし、単に奇をてらった映像を繋いだりビートを刻むだけでも成り立ちます。AI生成の映像ととても相性のいいジャンル。面白いミュージックビデオはストーリーがあり、音楽だけでなく映像でも引き付けます。
Claudeは、そのストーリーを作る部分をアシストしてくれる役割。
「温故知新をもとに3分30秒程度のミュージックビデオのシナリオを作ってください」と聞いてみます。
すると、概要とタイトル、30秒ごとの7つのシーンのあらすじを提供してくれました。
最初のシナリオは、若い学生が図書館で古い本を借り、大人になって仕事に行き詰まった時に昔の本を思い出す。その場面と問題解決のアイデアが重なって説明する様子が描かれる。図書館の司書と再会して感謝した後に、若い世代に伝える姿や最新のテクノロジーの映像で締めるといった内容。
ここからストーリーに肉付けしてしていきます。
青年を子供に変えたり難問をゲームに置き換えたり、VRの世界と結びつけたり…。まるでTRPGでゲームマスターがシナリオを作るのに近い感じでシナリオを作っていくことができます。
さらにカット割りや制作手順、撮影方法についても詳しく知ることが可能。
カット割りで提示された場所やアングルなどは、静止画生成のプロンプトとして使うことができます。作品に合った撮影手順も教えてくれるので、プリプロ用のアシストツールとしても使えます。
次はAIの画像生成です。
AIで画像を生成
AIで画像を生成する方法はStable DiffusionやMidjourneyなどいくつかありますが、簡単で使いやすいのはマイクロソフトの
Bing Image Creator。このビデオでもImage Creatorでほとんどの画像を生成しています。
YouTubeの説明では、WindowsのサイドバーからCopilotにアクセスしていますが、今は単体アプリになっています。Windows Storeからダウンロード可能です。
マイクロソフトのアカウントが必要ですが、無料で使えます。Copilotのチャットで「〇〇の画像を生成してください」と言うだけ。チャットに過去の履歴も残るので後で参照できます。
下記のリンクから直接イメージクリエーターのサイトに行けます。
新しく作成する場合はプロンプトを入力して「作成」をクリック。生成した画像はダウンロードでPCに保存できます。デフォルトでは1024 × 1024の正方形の画像ですが、サイトで4:3の1792 × 1024に変更可能。
AdobeのFireflyも強力な画像生成AIの一つ。ロゴは入りますが、無料で月25クレジットのクレジットがもらえます。
Photoshopに同じような機能が搭載されたので、それほど必要ではありませんがCreativeCloudのコンプリートプランに契約している場合は、月1000クレジットが付与されています。
Adobe Firefly単体のプランもあり、ロゴなしで月100クレジット付与。CanvaのようなオンライングラフィックツールのAdobe Expressプランの場合、月250クレジット付与されます。
生成塗りつぶしが結構優秀です。
音楽もですが、画像生成AIも結構「ガチャ」要素がある感じ。
Stable Diffusion WebUIやComfyUIを使ってローカルやGPUサーバに展開してFlux.1を回す方法もありますが、GPUや環境を整えるのが結構大変。課金OKな方は、素直にMidjourneyなどに登録した方が時間もかからず低コストで高品質な画像生成が行えます。
それでも、自力でやりたいという方はComfyUIがオススメ。DaVinci ResolveのFusionのようにノードを組んでいけます。
あと、GoogleもImageFXという画像生成サービスを試験的にスタートしています。
これ以外にもVideoFX、MusicFX、TextFXもあります。VideoFXは順番待ち。TextFXは類義語や対義語、イメージから連想する言葉や韻を踏んだりしてストーリーを作る感じ。
AIとラップって相性がいい気がするんです。そのうちAI同士がラップバトルしそう…。
AIによる動画生成
動画生成では「有償石ガチャ感」がさらにアップ…。
メジャーなところではRunwayのGen-2やGen3、LUMAのDream Machineなど。Midjourneyでも動画生成できます。テキストやイメージから動画を生成します。
Runwayはモーションブラシで特定の場所を動かしたり、カメラワークを付ける機能もあります。Runway Gen-3 Alphaで最大40秒まで延長可能になり、リップシンクもできるようになったみたいです!…ということは、歌えるんですよね。
このビデオではDream Machineを使用。LumaのDream Machineは無料で1日10回 月30回まで生成できます。ただ 無料だと待ち時間が結構ある感じです。2つのイメージをモーフィングする効果もあります。
使ってるのは12カットほどで、それほど多くありません。
ダビンチリゾルブで編集する
ダビンチリゾルブで編集する理由はいくつかあります。
カットページでラフ編集
まず 大量に生成した素材から目当てのショットを見つける方法。これはカットページを使うことで効率的に選べます。カットページにはソーステープっていうモードがあり、メディアプールの素材をフォルダーごとに1本で表示。
必要なシーンごとに分類すれば、その中から見つけてすぐに「末尾に追加」や「スマート挿入」で繋ぐことができます。
編集点に一度にディゾルブやトランジションを追加したり、静止画を動かして効果的に見せる「ダイナミックズーム」を適用してラフに全体のイメージと長さをあっという間に調整できます。
カラーページで色補正
ダビンチリゾルブで色調整するにはカットページを使います。生成された画像はビビッドなカラーで色調も結構バラバラ。
「ショットマッチ」を使うと、複数のクリップを選択して目当てのクリップを右クリックして適用すれば、すべてのショットがそのクリップに類似した色のバランスに一発で変わります。
新しい「フィルムルッククリエーター」を使うと、広い色域とガンマの中で作業できて簡単にシネマライクな色を作れます。
明るさを変えずに特定の色だけを調整できる「カラースライス」の機能も超便利。
クリップが1コマで表示されるので、同じシーンの別のショットを見比べるのも簡単。細かい調整をして組み上げたノードはスチルとしてギャラリーに保存しておけば、すぐに別のクリップに適用できます。
特殊効果の追加
ダビンチリゾルブで特殊効果を加えてあります。
簡易的なモーフィング効果。タイムラインのスムースカットのトランジションを使っています。
単純にマスクを切って動かしたり。マルチマージやマルチポリでレイヤー感覚で扱えます。
ダビンチリゾルブ自体にもDaVinci Neural Engineと呼ばれる数多くのAI機能が搭載されています。マジックマスクで人物だけ切り抜いたり、音楽リミキサーでボーカルだけ抜き出したり、音声のノイズを除去したり、音声のテキスト化やフェイス修正ツール、トラッキングやノイズ除去、背景だけをぼかしたり、スピードワープ、深度マップ、オブジェクト除去、顔検出…など。
中でもスーパースケールっていう超解像の機能は、シャープネスとノイズ除去の効果に役立ちます。
AIの生成画像はHDにも満たない場合が多く、ソフトウェア処理の2倍から4倍のスーパースケールの他に、NVIDIAのRTXビデオの効果を使えば高速に処理できます。
次はAIを使った3Dの合成です。
AIを使った3Dの合成
ダビンチリゾルブでは3D空間で合成できるFusionの機能が備わっています。オブジェクト自体を作れるわけではないので、ほかで作ったオブジェクトをインポートする形になります。
Tripo 3Dでオブジェクトを作成する
Tripo 3Dは3Dのオブジェクトやキャラクターをプロンプトや画像から作るサービス。
これもGoogleアカウントと紐付け可能。無料で使えるベーシックプランは月600クレジット貰えます。
このシーンは単純にオブジェクトを3D空間に配置して動かしている感じ。
GLBで書き出してBlenderでUSDに変換しています。直接USDで書き出しもできますが、5クレジットかかるので変換はBlenderで。
USDとは、Universal Scene Description(ユニバーサル シーン ディスクリプション)の略。今までは個々のソフトウェアごとにシーンのローカルの座標とオブジェクトやマテリアルのデータを持っていたけど、それを共通なものとしてやり取りしようというフォーマット。Open USDはNVIDIAのOmniverseが強力に推しています。
それはさておき
USDツールで3D空間に配置
FusionでUSDファイルを読み込んでUSDツールで3D空間に配置します。名前にuの付いているものがUSDツール。今までの3Dとは別空間で動作します。USDでやり取りするとテクスチャーを張り直さなくてよいので便利。
単純にテキストやイメージから3Dを作る以外に、人型であればスケルトンを追加してウォークアニメーションできます。
GLBで書き出してBlenderでループシーケンスで動きを延長しています。
MIXAMOでアニメーションを付ける
TripoからFBXで書き出すとAdobeのMIXAMOでアニメーションを付けることも可能。
MIXAMOを利用するにはAdobeのアカウントが必要です。
FBXをアップロードしてリグを付け直すと動きます。
Fusionで複製する
Fusionでデュプリケートツールを使うと簡単に複製が増やせます。
他にもAIによる3D生成がいくつかあります。
Meshyは似たような感じですが、高品位なテクスチャーが作れたり四足歩行が可能だったりと高機能。ハードサーフェースモードで1分で3Dプリンティングできるとか。
Stable Fast 3Dは秒で(0.5秒!)オブジェクトを生成可能。
Rodin(ロダン)はイメージやテキストから3Dを作成するだけでなく、3Dアバター(チャットアバター)にも特化。
次はTextAlive。
TextAliveでリリックビデオを作成
今までの生成AI系と趣が違いますが…。
TextAliveTextAliveは音楽に合わせて歌詞が動くリリックビデオをブラウザ上で制作できるサービスです。
Songle(ソングル)と連携して使います。
Songleは、能動的に音楽鑑賞が楽しめるサービス。登録した楽曲を音楽理解技術を使い繰り返し構造などを自動的に解析。TextAliveはそのデータをもとにテキストやグラフィックが動きます。
今までリリックビデオは手づけでアニメーションしてましたが、それが半自動になります。
グラフィックアプリケーションの字幕入れとは異なり、ブラウザ上で動作。Webアプリケーションの技術で開発できて、モーションのテンプレートはJavaScriptで書くことができます。インタラクティブな操作も可能に。
Songleに登録した楽曲は解析が終わるとTextAliveで編集可能になり、スタイルを選んで歌詞のタイミングを合わせたり、グラフィックを変更できるようになる感じです。レンダリングのタブからムービーを書き出すことができます。
動画生成AIの進化は凄まじいスピードで変化しています。この情報もあっという間に時代遅れになるかもしれませんが…
古きをたずねて、新しい知識を導いてみてください。
コメント