Soraのようなテキストから動画へのAI

[広告1]

ソラ (OpenAI)

Sora は発表された中で最も新しい名前ですが、最も大きな騒ぎを巻き起こしています。その理由の一部は、ChatGPT の有名な開発元である OpenAI の製品であることです。しかし、主な理由は、このプログラムがテキストコマンドだけで作成するビデオの品質です。

ChatGPTの成功により、同社のAIは言語に対する深い理解力も獲得しました。Soraの能力を示す動画では、まるで人間が撮影した映画のようにリアルにキャラクターが動き、表現している様子が見られます。

Video "siêu thực" do Sora tạo từ các lệnh văn bản — ソラがテキストコマンドから作成した「シュールレアリスム」ビデオ

しかし、安全上の理由から、Soraはまだ一般公開されていません。OpenAIは、特にユーザーのなりすましや犯罪行為といった悪質な目的で使用されるAIユーザーの増加を踏まえ、一般公開前に慎重な措置を講じる予定です。

ルミエール（Google）

LumiereはGoogleの製品で、STUNet（Space-Time-U-Net）構造拡散モデルに基づいて、テキスト入力から動画を生成することもできます。Lumiereは静止画をつなぎ合わせるのではなく、動画内のディテール（空間部分）を識別し、それらがどのように動き、同時に変化するか（時間部分）を追跡することで、スムーズな処理を支援します。

Soraと同様に、Lumiereはまだ一般公開されていません。同社はこのモデルを、Bardと同期したばかりの大規模言語モデルGeminiのリリース後の2024年1月下旬に初めて発表しました。

ビデオポエット（Google）

この大規模言語モデル（LLM）は、2023 年に Google 検索によって開発された、動画、写真、音声、テキストの膨大なリポジトリからトレーニングされています。VideoPoet は、テキスト、写真、動画などの入力ソースからさまざまなタスクを実行して、動画を作成したり、コンテンツを強調表示したり、動画を音声に変換したり、静止画をアニメーションに変換したりできます。

VideoPoetの元々のアイデアは、あらゆる自己回帰言語モデルを動画生成システムに変換する必要性から生まれました。現在の自己回帰言語モデルは、テキストやプログラミングコードを人間と同じように処理できますが、動画となると処理が困難です。VideoPoetは、トークン化を用いてあらゆる形式の入力を理解可能な言語に変換することで、この問題を解決します。