Google Gemini “панікує” під час гри в Pokémon, боячись поразки

18 Червня, 2025 Vitaliy Kairov DeepMind, Gemini, Gemini 2.5 Pro, Google, Pokémon, ШІ119 переглядів 3 хв. читання

⠀Поширити:

Google Gemini 2.5 Pro “панікує” у Pokémon при загрозі поразки, імітуючи стрес.
Дослідження поведінки ШІ у відеоіграх виявляють людські реакції під тиском.
ШІ Claude також демонстрував цікаві, хоча й помилкові, стратегії виходу з гри.
Попри недоліки, Gemini ефективно вирішує головоломки, створюючи агентні інструменти.

У світі, де компанії зі штучного інтелекту змагаються за домінування в галузі, іноді вони також змагаються на віртуальних “покемон-аренах”. Компанії Google та Anthropic досліджують, як їхні новітні моделі ШІ справляються з ранніми іграми Pokémon, і результати цих досліджень виявляються як кумедними, так і повчальними. Згідно зі звітом Google DeepMind, модель Gemini 2.5 Pro вдається до “паніки”, коли її покемони наближаються до поразки. Це може призводити до “якісно помітного погіршення здатності моделі до міркування”.

Бенчмаркінг ШІ – процес порівняння продуктивності різних моделей – часто є “сумнівним мистецтвом”, що дає мало контексту для реальних можливостей моделі. Проте деякі дослідники вважають, що вивчення того, як моделі ШІ грають у відеоігри, може бути корисним, або, принаймні, досить кумедним.

Протягом останніх місяців два розробники, не пов’язані з Google та Anthropic, запустили власні Twitch-трансляції під назвами “Gemini Plays Pokémon” та “Claude Plays Pokémon”. На цих стримах кожен охочий може в реальному часі спостерігати, як ШІ намагається пройти дитячу відеогру, створену понад 25 років тому. Кожна трансляція відображає “процес міркування” ШІ – природномовний переклад того, як модель оцінює проблему та приходить до відповіді, надаючи унікальне уявлення про її внутрішню роботу.

Хоча прогрес цих моделей ШІ вражає, вони все ще не дуже добре грають у Pokémon. Gemini потрібні сотні годин, щоб пройти гру, яку дитина може завершити за набагато менший час. Однак, цікавість полягає не стільки в часі проходження, скільки в поведінці ШІ під час гри.

“Протягом проходження Gemini 2.5 Pro потрапляє в різні ситуації, які змушують модель симулювати ‘паніку'”, – йдеться у звіті.

Цей стан “паніки” може призвести до погіршення продуктивності моделі, оскільки ШІ може раптово припинити використовувати певні доступні йому інструменти на певний проміжок часу. Хоча ШІ не думає і не відчуває емоцій, його дії імітують поведінку людини, яка може приймати необдумані, поспішні рішення під впливом стресу. Ця реакція є як захопливою, так і дещо бентежною.

“Ця поведінка спостерігалася в достатній кількості окремих випадків, щоб учасники чату Twitch активно помічали, коли це відбувається”, – додається у звіті.

Claude також демонстрував деякі цікаві особливості у своїх подорожах по регіону Канто. В одному випадку ШІ помітив закономірність: коли у всіх його покемонів закінчується здоров’я, персонаж гравця “знепритомніє” і повернеться до Покемон-центру. Коли Claude застряг у печері Місячної гори, він помилково висунув гіпотезу, що якщо він навмисно змусить усіх своїх покемонів втратити свідомість, то буде перенесений через печеру до Покемон-центру в наступному місті. Однак гра працює інакше: коли всі покемони вмирають, ви повертаєтеся до останнього використаного Покемон-центру, а не до найближчого географічно. Глядачі з жахом спостерігали, як ШІ фактично намагався “вбити” себе в грі.

Попри свої недоліки, є кілька аспектів, у яких ШІ може перевершити людських гравців. З моменту випуску Gemini 2.5 Pro, ШІ здатен вирішувати головоломки з вражаючою точністю. За деякої допомоги людини ШІ створив агентні інструменти – керовані екземпляри Gemini 2.5 Pro, націлені на конкретні завдання – для вирішення головоломок з валунами в грі та пошуку ефективних маршрутів до місця призначення.

“Лише з підказкою, що описує фізику валунів, та описом того, як перевірити дійсний шлях, Gemini 2.5 Pro може з першої спроби вирішити деякі з цих складних головоломок з валунами, які необхідні для проходження Дороги Перемоги”, – йдеться у звіті.

Оскільки Gemini 2.5 Pro виконав значну частину роботи зі створення цих інструментів самостійно, Google припускає, що поточна модель може бути здатна створювати такі інструменти без втручання людини. Хто знає, можливо, Gemini згодом “протерапізує” себе і створить модуль “не панікувати”.

⠀Поширити:

Vitaliy Kairov

Залишити відповідь Скасувати коментар