ІнтернетШІ

Google AI Overviews помиляється у кожному десятому запиті

⠀Поширити:

  • Дослідження The New York Times і Oumi виявило, що Google AI Overviews дає правильні відповіді лише у 90% випадків.
  • Через масштаб пошуку це означає мільйони хибних відповідей на годину.
  • Тестування проводилось на бенчмарку SimpleQA з 4 тисяч запитань; точність зросла з 85% до 91% після оновлення до Gemini 3.
  • Google розкритикувала методологію дослідження й заявила, що SimpleQA не відображає реальних запитів користувачів.
  • Сама Google розміщує під кожною відповіддю застереження про можливість помилок.

Спільне дослідження The New York Times і ШІ-стартапу Oumi показало, що функція AI Overviews у пошуку Google дає правильні відповіді у 90% випадків. Тобто принаймні кожна десята відповідь є помилковою. З огляду на кількість пошукових запитів, це означає мільйони хибних відповідей на годину і сотні тисяч щохвилини.

AI Overviews — функція пошукової системи Google, яка використовує модель Gemini для формування стислих автоматичних відповідей на запити. Вперше запущена у 2024 році, з травня того ж року отримала широке розповсюдження, зокрема в Україні.

Для тестування використовувався SimpleQA — стандартний бенчмарк із 4 тисяч запитань, розроблений OpenAI у 2024 році. Перші тести Oumi провела, коли актуальною була модель Gemini 2.5, — тоді точність AI Overviews становила 85%. Після оновлення до Gemini 3 показник підвищився до 91%.

У звіті наведено конкретні приклади помилок. На запит про дату перетворення будинку Боба Марлі на музей система навела три джерела: два без дат, третє — з Вікіпедії — з помилкою. На запит про дату вступу віолончеліста Йо-Йо Ма до Зали слави класичної музики ШІ відповів, що такої організації не існує, хоча сам послався на її офіційний сайт.


Channel Tech в Telegram Актуальні новини та аналітика
Підписатися

У Google розкритикували методологію дослідження. Речник компанії Нед Адріанс заявив, що SimpleQA може містити неточності і не відображає реальних пошукових запитів користувачів. Компанія використовує власний тест SimpleQA Verified на меншій, але ретельніше перевіреній вибірці.

AI Overviews не є єдиною моделлю: система обирає найбільш відповідну для кожного запиту. Найточніші результати могла б давати Gemini 3.1 Pro, однак вона повільна і дорога, тому частіше використовуються моделі Gemini Flash. Сама Google розміщує під кожною відповіддю застереження:

«ШІ може помилятися, тому перевірте ще раз».

Подобається Channel Tech? Ви можете підтримати незалежний проєкт
Підтримати
⠀Поширити:

Vitaliy Kairov

Засновник видання. Пишу про технології, гаджети та софт. Ціную об'єктивність, якісний звук та лаконічність.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *