Google випустив Gemini 2.5 Computer Use: ШІ-модель, що може користуватися браузером
- Google анонсувала модель Gemini 2.5 Computer Use, яка вміє користуватися браузером.
- Вона може виконувати 13 базових дій, включно з введенням тексту та навігацією.
- Модель перевершує конкурентів і доступна для розробників.
- Анонс відбувся після схожих презентацій від OpenAI та Anthropic.
Google анонсувала нову модель Gemini 2.5 Computer Use, яка здатна взаємодіяти з веббраузером, як звичайна людина. Ця технологія дозволяє моделі виконувати завдання в тих середовищах, де автоматичний доступ через API обмежений. Вона може натискати на кнопки, прокручувати сторінки та вводити текст.
Gemini 2.5 Computer Use використовує візуальне розпізнавання та логічне мислення для виконання інструкцій користувача. Наприклад, модель може заповнити онлайн-форму, протестувати інтерфейс або здійснювати навігацію по вебсайтах. Загалом, вона підтримує 13 базових дій, включно з відкриттям вкладок, перетягуванням елементів і взаємодією з текстом.
За словами Google, нова модель перевершує конкурентів у низці веб- та мобільних бенчмарків. Її можливості доступні для розробників через Google AI Studio та Vertex AI. На сайті Browserbase можна ознайомитися з публічною демонстрацією, де ШІ виконує такі завдання, як гра у 2048 або пошук інформації на Hacker News.
Анонс Google з’явився наступного дня після того, як OpenAI представила інтеграцію додатків у ChatGPT. Раніше подібні можливості також пропонувала компанія Anthropic у своїй моделі Claude. Це свідчить про посилення конкуренції на ринку ШІ-асистентів, здатних взаємодіяти з вебсередовищем.
