ソラ (OpenAI)
Sora は発表された中で最も新しい名前ですが、最も大きな騒ぎを巻き起こしています。その理由の一部は、ChatGPT の有名な開発元である OpenAI の製品であることです。しかし、主な理由は、このプログラムがテキスト コマンドだけで作成するビデオの品質です。
ChatGPTの成功により、同社のAIは言語に対する深い理解力も獲得しました。Soraの能力を示す動画では、まるで人間が撮影した映画のようにリアルにキャラクターが動き、表現している様子が見られます。
ソラがテキストコマンドから作成した「シュールレアリスム」ビデオ
しかし、安全上の理由から、Soraはまだ一般公開されていません。OpenAIは、特にユーザーのなりすましや犯罪行為といった悪質な目的で使用されるAIユーザーの増加を踏まえ、一般公開前に慎重な措置を講じる予定です。
ルミエール(Google)
LumiereはGoogleの製品で、STUNet(Space-Time-U-Net)構造拡散モデルに基づいて、テキスト入力から動画を生成することもできます。Lumiereは静止画をつなぎ合わせるのではなく、動画内のディテール(空間部分)を識別し、それらがどのように動き、同時に変化するか(時間部分)を追跡することで、スムーズな処理を支援します。
Soraと同様に、Lumiereはまだ一般公開されていません。同社はこのモデルを、Bardと同期したばかりの大規模言語モデルGeminiのリリース後の2024年1月下旬に初めて発表しました。
ビデオポエット(Google)
この大規模言語モデル(LLM)は、2023 年に Google 検索によって開発された、動画、写真、音声、テキストの膨大なリポジトリからトレーニングされています。VideoPoet は、テキスト、写真、動画などの入力ソースからさまざまなタスクを実行して、動画を作成したり、コンテンツを強調表示したり、動画を音声に変換したり、静止画をアニメーションに変換したりできます。
VideoPoetの元々のアイデアは、あらゆる自己回帰言語モデルを動画生成システムに変換する必要性から生まれました。現在の自己回帰言語モデルは、テキストやプログラミングコードを人間と同じように処理できますが、動画となると処理が困難です。VideoPoetは、トークン化を用いてあらゆる形式の入力を理解可能な言語に変換することで、この問題を解決します。
テキストから動画を作成するツールは、ほとんどが限界を試している
Emu ビデオ (メタ)
GoogleやOpenAIに加え、MetaもAI開発に積極的に取り組んでいる大手テック企業の一つです。Facebookを所有するこの企業は、画像をテキストに変換し、それをデータとして動画クリップを作成できるEmu Videoという動画作成AIも開発しました。
Emu Videoはベータテスターから好評を得ており、81%がImagen Video(Google)よりもEmu Videoを高く評価しています。90%以上がPYOCO(Nvidia)よりもMetaのモデルを選択しており、MetaのMake-A-Video(96%)よりも優れています。
CogVideo(清華大学、中国)
上記のモデルはすべて世界をリードするテクノロジー企業の製品ですが、CogVideoは中国だけでなくアジアでもトップクラスの名門校である清華大学の研究チームによって開発されたAIです。このプログラムは、事前学習済みのテキスト画像変換モデルであるCogView2をベースにしています。
CogVideoをテストしたコンピュータアートの専門家、グレン・マーシャル氏は、「監督は職を失う可能性がある」と述べた。CogVideoの助けを借りて制作された彼の「 The Crow 」という動画は高い評価を受け、英国アカデミー賞(BAFTA)にノミネートされた。
[広告2]
ソースリンク
コメント (0)