ここ数年、人工知能で画像を生成する可能性について、 テキスト プロンプト (生成したいものの簡単な説明) を使用して、AI が画像に変換するという話を聞くことが増えてきました。これらのツールは時間の経過とともに大幅に改善されましたが、 AI 生成ビデオの場合、進歩はまだ限られています。
Google はこの意味での競争を望んでおり、そのためにテキスト コマンドを使用してビデオを作成できる人工知能モデルであるLumiere を発表しました。その結果は、他の提案や代替案で見てきたものよりもはるかに流動的であることが約束されています。遠い。
Lumiere はテキストからビデオを作成するだけでなく、既存のビデオを変更することもできます
Lumiere がさらに興味深いのは、テキスト ビデオ生成における他の企業の開発とは異なり、Lumiere はビデオを作成するためにフレームを結合する必要がなく、一度にビデオを作成できるため、結果がはるかに滑らかで自然で、時間的に不一致のあるビデオを作成する。これは、作成者によって開発された、Space-Time U-Net と名付けられた新しいシステムのおかげで実現されました。
Lumiereの責任者らは、人工知能モデルのトレーニングに「説明としてテキストを含む約3,000万本のビデオで構成されるデータセット」を使用してきたと説明しているが、少なくともこれまでは詳細は明らかにしなかった。
これらすべてがLumiere の複数の機能に変換されます。 Google のジェネレーティブ ビデオ AI は次のことが可能です。
- テキストからビデオを作成: 説明を書くと、Lumiere がそれを実現します
- 画像からビデオを作成する– つまり、静止画像を動画に変換できます。
- 画像に基づいてスタイル化されたビデオを生成: AI は、ユーザーがリクエストしたビデオを作成する際に、スタイルの参照として画像を使用できます。
- ビデオの編集: 既存のビデオの一部を変更できます。たとえば、走っている女性のビデオで「女性は花でできている」と尋ねることが可能で、AIがそれを実現します。
- 「シネマグラフ」を作成します。つまり、画像の特定の部分をアニメーション化します。
ルミエールの(現在の)限界は何ですか?
研究発表の際、Lumiere の作成者らは、AI が最大 80 フレームを生成して、最大長 5 秒、解像度 1,024×1,024 ピクセルのビデオを作成できると説明しています。
そして、 Lumiere はまだ開発中であるため、まだ一般公開されていません。この AI をいつテストできるか、また Google がそのテクノロジーを最終製品にいつ実装できるかは不明です。結局のところ、同社は人工知能に関して大きな野心を抱いており、 Gemini の登場と、さまざまな AI ベースの機能をAndroid オペレーティング システムに直接統合します。
Lumiere はまだ準備が整っていないかもしれませんが、それでもすでに有望な結果を提供している AI です。問題は、2 年後、3 年後、または 5 年後にあなたのビデオがどの程度リアルになっているかということです。