Google Geminiのアップグレードでは、Google DeepMindが開発した「ナノバナナ」画像モデルが採用されています。この機能は現在、無料ユーザーと有料ユーザーの両方で世界中で利用可能です。最大の強みは、写真内の顔や物体の一貫性を維持する能力です。これは他のAIツールではしばしば課題となるものです。

「画像の品質とモデルの指示への追従能力を徹底的に向上させました」と、DeepMindのプロダクトリード、ニコール・ブリクトヴァ氏は述べています。「今回のアップデートにより、編集がよりシームレスになり、あらゆる用途に使えるほど優れた結果が得られました。」

すべての写真に「あなた」を残しましょう

AI写真が偽物に見える原因の一つは、細部が歪んでしまうことです。Googleによると、Geminiはこの問題を解決し、顔や表情はそのままにシーン全体を変更できるとのことです。新しいヘアスタイルを試したり、壁の色を変えたり、ペットをシーンに登場させたりしても、画像の歪みを気にする必要はありません。

写真を合成する.gif
Google Gemini を使って、既存の 2 枚の画像から新しいコンテキストを持つ写真を結合します。出典: Google

Gemini では、複数の写真をアップロードして 1 枚に組み合わせることもできます。たとえば、猫とポートレートを組み合わせて、2 人で一緒に道路に乗っている写真を作成することもできます。

Geminiはマルチターン編集をサポートしており、壁紙、家具、ペイントの色など、空間のあらゆるディテールを追加できます。編集が必要な部分のみが変更され、残りはそのまま維持されるのが利点です。

さらに、双子座は写真ごとにスタイルをミックスできます。例えば、レインブーツを花柄の靴に変えたり、蝶々模様のドレスにしたり。

テクノロジー大手によるAI画像作成競争

Googleのアップグレードは、AI画像処理戦争が激化する中で実現した。OpenAIは以前、画像を直接生成できるGPT-4oをリリースし、スタジオジブリ風のミーム動画を次々と投稿して話題を呼んだ。CEOのサム・アルトマン氏は、ユーザー数が急増したため、同社のGPUが「ほぼ溶けた」と明かした。

これに追いつくために、Meta は Midjourney との提携を発表し、一方でドイツのスタートアップ Black Forest Labs は FLUX モデルで多くのチャートを席巻している。

マルチターン編集.gif
Google Geminiの多段階写真編集機能。出典:Google

Googleは、GeminiがChatGPTとの差を縮めることを期待している。CEOのサンダー・ピチャイ氏によると、Geminiの月間ユーザー数は現在4億5000万人で、週7億人以上のChatGPTを大きく引き離している。

ブリクトヴァ氏によると、ジェミニはリビングルームや庭の視覚化から、楽しい写真の作成まで、現実世界のシナリオを想定して設計されているという。このモデルはより高度な「 世界知識」を備えており、複数の写真とカラーパレットを単一のレンダリングに組み合わせることができる。

しかし、Googleは厳しい制限も課しています。生成されるすべての画像には、明確な透かしとメタデータに隠された識別マークが付けられます。ディープフェイクの悪用を防ぐため、Googleはセンシティブな画像を許可なく作成することを厳しく禁止しています。

Googleは以前、Geminiの不正確な歴史画像について謝罪している。今回は、創造性と安全性のバランスをうまく取れたと考えている。 「ユーザーには創造性を発揮してもらいたいですが、すべてが許されるわけではありません」とブリクトヴァ氏は強調した。

Googleは、Gemini 2.5 Flash ImageでAI写真編集エクスペリエンスの向上に力を入れており、OpenAI、Meta、その他の競合他社との激しい技術競争の中で、既存のユーザーを維持し、新規ユーザーを引き付けたいと考えている。

(TechCrunch、Tom's Guideによると)

NVIDIAは、1台あたり8,500万ドンという価格で、人間がロボットを作る時代への道を切り開きます。NVIDIAは、機械が人間のように見、考え、行動できるよう支援する「ロボット脳」と呼ばれるチップ「Jetson AGX Thor」を3,499ドルで発売しました。このチップは、物理的なAI開発競争の幕開けとなります。

出典: https://vietnamnet.vn/google-gemini-nang-tam-ai-tao-anh-doi-nen-kieu-toc-chi-bang-mot-cau-lenh-2436782.html