Google AI Overviews помиляється у кожному десятому запиті
- Дослідження The New York Times і Oumi виявило, що Google AI Overviews дає правильні відповіді лише у 90% випадків.
- Через масштаб пошуку це означає мільйони хибних відповідей на годину.
- Тестування проводилось на бенчмарку SimpleQA з 4 тисяч запитань; точність зросла з 85% до 91% після оновлення до Gemini 3.
- Google розкритикувала методологію дослідження й заявила, що SimpleQA не відображає реальних запитів користувачів.
- Сама Google розміщує під кожною відповіддю застереження про можливість помилок.
Спільне дослідження The New York Times і ШІ-стартапу Oumi показало, що функція AI Overviews у пошуку Google дає правильні відповіді у 90% випадків. Тобто принаймні кожна десята відповідь є помилковою. З огляду на кількість пошукових запитів, це означає мільйони хибних відповідей на годину і сотні тисяч щохвилини.
AI Overviews — функція пошукової системи Google, яка використовує модель Gemini для формування стислих автоматичних відповідей на запити. Вперше запущена у 2024 році, з травня того ж року отримала широке розповсюдження, зокрема в Україні.
Для тестування використовувався SimpleQA — стандартний бенчмарк із 4 тисяч запитань, розроблений OpenAI у 2024 році. Перші тести Oumi провела, коли актуальною була модель Gemini 2.5, — тоді точність AI Overviews становила 85%. Після оновлення до Gemini 3 показник підвищився до 91%.
У звіті наведено конкретні приклади помилок. На запит про дату перетворення будинку Боба Марлі на музей система навела три джерела: два без дат, третє — з Вікіпедії — з помилкою. На запит про дату вступу віолончеліста Йо-Йо Ма до Зали слави класичної музики ШІ відповів, що такої організації не існує, хоча сам послався на її офіційний сайт.
У Google розкритикували методологію дослідження. Речник компанії Нед Адріанс заявив, що SimpleQA може містити неточності і не відображає реальних пошукових запитів користувачів. Компанія використовує власний тест SimpleQA Verified на меншій, але ретельніше перевіреній вибірці.
AI Overviews не є єдиною моделлю: система обирає найбільш відповідну для кожного запиту. Найточніші результати могла б давати Gemini 3.1 Pro, однак вона повільна і дорога, тому частіше використовуються моделі Gemini Flash. Сама Google розміщує під кожною відповіддю застереження:
«ШІ може помилятися, тому перевірте ще раз».
