
Google hat gerade ein neues KI-Modell namens Gemini 2.5 Computer Use angekündigt, das es künstlicher Intelligenz ermöglicht, wie ein echter Benutzer direkt mit dem Webbrowser zu interagieren.

Zu den Fähigkeiten dieser KI gehören Klicken, Scrollen, Tippen, Ziehen und Ablegen sowie das Navigieren auf Websites.

Dies ist ein wichtiger Schritt nach vorn, um KI in die Lage zu versetzen, Aufgaben auf Schnittstellen ohne APIs oder direkte Verbindungen zu erledigen.

Laut Google ist Gemini 2.5 Computer Use mit visuellen Verständnis- und Argumentationsfähigkeiten ausgestattet, um Bildschirminhalte zu verstehen und Benutzeranforderungen auszuführen, wie etwa das Ausfüllen von Formularen, das Senden von Daten oder das Navigieren durch Benutzeroberflächen (UI-Tests).

Einige frühere Versionen dieses Modells wurden in internen Projekten wie AI Mode und Project Mariner getestet, bei denen KI Aufgaben im Browser automatisch erledigen kann, wie etwa das Hinzufügen von Produkten zu einem Einkaufswagen basierend auf einer vom Benutzer bereitgestellten Zutatenliste.

Bemerkenswerterweise erfolgt die Ankündigung von Google nur einen Tag, nachdem OpenAI bei seinem Dev Day-Event eine Reihe neuer Anwendungen für ChatGPT vorgestellt hatte, während Anthropic im vergangenen Jahr auch eine Funktion zur „Computernutzung“ für sein Claude-Modell eingeführt hatte.

Laut Google übertrifft Gemini 2.5 Computer Use die Konkurrenzmodelle bei vielen Web- und Mobil-Benchmark-Tests.

Im Gegensatz zu ChatGPT Agent oder Claude funktioniert das Modell von Google jedoch nur in einer Browserumgebung und ist nicht für die vollständige Kontrolle des Betriebssystems des Computers optimiert.

Es unterstützt derzeit 13 Arten von Aktionen, darunter das Öffnen eines Browsers, die Eingabe von Text, Ziehen und Ablegen sowie das Verschieben von Schnittstellenelementen. Das Modell steht Entwicklern über Google AI Studio und Vertex AI zur Verfügung. Benutzer können sich eine Live-Demo auf Browserbase ansehen, in der die KI Aufgaben wie „2048 spielen“ oder „kontroverse Themen auf Hacker News finden“ ausführt.
Quelle: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
Kommentar (0)