先日別の記事で取り上げた「Kaiber」のTransform機能。
動画をAIの力で別の動画に変えてくれる機能で、俗にいう「Video to Video」です。
搭載されているプリセットやパラメーターについて解説しているので良かったらご覧ください。
今回は、「Runway」を使用して同じように動画変換をしてみたいと思います。
Runwayと言えば、言わずと知れた生成系AIの雄です。
テキストから動画を生成することも勿論できますが、動画変換に関してどうなのでしょうか?
今回の内容は、
動画変換のクオリティ
その際の注意点
Kaiberとの比較
について、説明していきます。
早速見ていきましょう。
素材動画
毎度毎度恐縮なのですが、前回の記事と同じように私の弾き語り動画で今回も生成していきます。
普段の配信部屋で撮影をしています。
Kaiberでの動画変換ではリップシンクが合わなかったり、顔がそもそも変わってしまったりとなかなか難しい部分がありました。
編集画面について
「Video to Video」を選択すると上記のような画面になります。
中央に変換したい動画をドラッグしてくるとアップロードが開始されます。
そして右側にあるのが動画のスタイルを決める項目になっていて、
image(画像)
preset(プリセット)
prompt(指示文)
上記の3つのどれかで指示が出来るようになっています。
presetについて
Kaiber同様にRunwayにもプリセットが設定されています。
Kaiberは19種類だったのに対し、Runwayは24種類が準備されています。
それでは実際に見ていきましょう。
完成動画
その1
・ギターを弾きながら歌う日本人男性。大きな大聖堂で歌う。
アジアっぽい顔の表現は出来ていますが、唇と声とのずれが気になります。
また、指板を抑えている方の手の形がAI独特の崩れ方をしてしまっています。
その2
・ギターを弾きながら歌う老人。背景は何もない真っ暗な部屋。寂しい雰囲気。
おじいさんに変身してみました。
やはり、背景を真っ暗にするのは現段階の私では力不足のようです。
しかし「寂しい雰囲気」を汲み取って白黒にしてくれました。
その3
・Claymotion(クレイモーション)
次はクレイモーションというプリセットを使ってみました。
個人的には一番お気に入りの動画です。
表情や口元の動きという点では、元動画と大きく乖離してしまいましたが、動画変換の際にはここまで大きく変化させる方が良い結果を生むという示唆を与えてくれているようにも思います。
その4
・futuristic(未来的)
その5
・sky(空)
とても壮大な雰囲気の動画に変換されました。
これはこれで悪くないのですが、ギターが消えていたり表情の変化の度合いも「うーむ」といった感じでAI動画っぽい不自然さが際立ってしまっています。
注意点
生成していく中で気付いたのですが、動画変換で使われるRunwayはGen-2ではなくGen-1のようでした。
つまりひと世代前のバージョンで動画を生成しているということです。
どのような仕様でそうなっているのかは分かりませんが、高品質と謳われているGen-2の「Text to Video」とは違い、今回の検証に使われたのはGen-1ですのでややクオリティは劣るかもしれません。
Kaiberとの比較
上記の点から、一概にどっちが良いかを論じることは難しいです。
個人的にはKaiberの方が出来上がりの満足度は高いですが、ポイント別にみてみると、
背景や人の顔の変化
Kaiberの方が頻繁に変化するように感じます。もちろんプロンプトや強度の設定によっても変わってきますが、Kaiberはドラマティックであり、Runwayは整合性が高いとも言い換えられるかもしれません。
presetの種類
前述したとおり、種類数ではRunwayの方が多いです。
しかし、色々試していく中でクオリティがイマイチなものもある印象でした。
元動画との相性や設定によって変わる部分なので難しいですが、単純な数的優劣にはならない印象でした。
まとめ
KaiberとRunwayを両方使ってみて思ったのは、
弾き語り動画は不向き
口元の動きと密接に関連する動画よりは、町中を歩く動画や、ダンス動画などの画面全体で表現するような動画の方が良いのかも知れません。
思いっきり変化させるが吉
元動画の要素も残しつつ、変化させるというのはなかなか難しかったです。
ガラッとクレイモーションにしたり、おじいさんに変化させたりとする方が「おおっ!」となりやすいです。
当然、AIは進化を重ねてもっと高品質なものがどんどん出てくるでしょう。
これは現時点での私個人の評価ですのでこれからの発展が楽しみです。