
구글은 방금 Gemini 2.5 Computer Use라는 새로운 AI 모델을 발표했습니다. 이 모델을 사용하면 인공 지능이 실제 사용자처럼 웹 브라우저와 직접 상호 작용할 수 있습니다.

이 AI의 기능에는 클릭, 스크롤, 타이핑, 드래그 앤 드롭, 웹사이트 탐색이 포함됩니다.

이는 API나 직접 연결 없이도 AI가 인터페이스에서 작업을 처리할 수 있도록 하는 데 있어 중요한 진전입니다.

Google에 따르면, Gemini 2.5 Computer Use는 화면상의 내용을 이해하고 양식 작성, 데이터 제출, 사용자 인터페이스 탐색(UI 테스트)과 같은 사용자 요청을 수행하기 위한 시각적 이해 및 추론 기능을 갖추고 있습니다.

이 모델의 초기 버전 중 일부는 AI 모드와 Project Mariner와 같은 내부 프로젝트에서 테스트되었습니다. 이 프로젝트에서는 AI가 브라우저에서 자동으로 작업을 완료할 수 있습니다. 예를 들어 사용자가 제공한 재료 목록에 따라 쇼핑 카트에 제품을 추가하는 작업이 있습니다.

특히, Google의 발표는 OpenAI가 Dev Day 이벤트에서 ChatGPT에 대한 일련의 새로운 애플리케이션을 공개한 지 하루 만에 나온 것이며, Anthropic도 작년에 Claude 모델에 대한 "컴퓨터 사용" 기능을 소개했습니다.

Google에 따르면, Gemini 2.5 Computer Use는 많은 웹 및 모바일 벤치마크 테스트에서 경쟁 모델보다 우수한 성능을 보였습니다.

하지만 ChatGPT Agent나 Claude와는 달리 Google의 모델은 브라우저 환경에서만 작동하며 컴퓨터 운영 체제를 완벽하게 제어하도록 최적화되어 있지 않습니다.

현재 브라우저 열기, 텍스트 입력, 드래그 앤 드롭, 인터페이스 요소 이동 등 13가지 유형의 동작을 지원합니다. 이 모델은 Google AI Studio와 Vertex AI를 통해 개발자에게 제공되며, 사용자는 Browserbase에서 AI가 "2048 재생" 또는 "해커 뉴스에서 논란의 여지가 있는 주제 찾기"와 같은 작업을 수행하는 라이브 데모를 볼 수 있습니다.
출처: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
댓글 (0)