AI Google Gemini 2.5はブラウザで本物の人間のように動作します

Google は、人工知能が実際のユーザーのように Web ブラウザと直接対話できるようにする、Gemini 2.5 Computer Use という新しい AI モデルを発表しました。

この AI の機能には、クリック、スクロール、入力、ドラッグアンドドロップ、Web サイトのナビゲーションなどがあります。

これは、API や直接接続なしで AI がインターフェース上のタスクを処理できるようにするための重要な前進です。

Google によれば、Gemini 2.5 Computer Use には、画面上のコンテンツを理解し、フォームへの記入、データの送信、ユーザーインターフェースのナビゲート (UI テスト) などのユーザー要求を実行するための視覚的な理解および推論機能が搭載されています。

このモデルの初期バージョンのいくつかは、AI Mode や Project Mariner などの社内プロジェクトでテストされており、ユーザーが提供する材料リストに基づいて商品をショッピングカートに追加するなど、AI がブラウザ内でタスクを自動的に完了できます。

注目すべきは、Google の発表は、OpenAI が Dev Day イベントで ChatGPT の新しいアプリケーションシリーズを発表したわずか 1 日後に行われ、Anthropic も昨年 Claude モデルに「コンピューター使用」機能を導入した点だ。

Google によれば、Gemini 2.5 Computer Use は、多くの Web およびモバイルベンチマークテストで競合モデルよりも優れたパフォーマンスを発揮します。

ただし、ChatGPT Agent や Claude とは異なり、Google のモデルはブラウザ環境でのみ動作し、コンピューターのオペレーティングシステムを完全に制御できるように最適化されていません。

現在、ブラウザの起動、テキスト入力、ドラッグ＆ドロップ、インターフェース要素の移動など、13種類のアクションをサポートしています。このモデルはGoogle AI StudioとVertex AIを通じて開発者に提供されており、ユーザーはBrowserbaseでライブデモを視聴できます。このデモでは、AIが「2048をプレイする」や「Hacker Newsで物議を醸しているトピックを見つける」といったタスクを実行します。