Google знижує вартість доступу до ШІ-моделей Gemini: автоматичне кешування вже працює
Google запроваджує нову функцію у своєму Gemini API — так зване «неявне кешування», яке автоматично зменшує витрати на використання штучного інтелекту. За словами компанії, це рішення дозволяє скоротити вартість обробки повторюваного контексту до 75% без будь-яких додаткових дій з боку розробників.
Нововведення стосується моделей Gemini 2.5 Pro та Gemini 2.5 Flash. Суть неявного кешування полягає в автоматичному збереженні та повторному використанні вже оброблених запитів. Якщо новий запит починається з такого ж тексту, як і попередній, система просто використовує вже згенеровану відповідь. Розробникам більше не потрібно вручну визначати найчастіше використовувані підказки, як це було раніше з явним кешуванням, яке вимагало складної ручної оптимізації.
Попередній механізм кешування викликав чимало нарікань: деякі розробники повідомляли про неочікувано високі рахунки при роботі з Gemini 2.5 Pro. Реакція спільноти змусила команду Gemini вибачитися та пообіцяти зміни — саме так і з’явилося автоматичне кешування.
Тепер функція активна за замовчуванням. Вона спрацьовує, якщо запит до API має спільний початок із попередніми — і користувач одразу отримує знижку. За документацією Google, для цього потрібно не так вже й багато: від 1024 токенів для 2.5 Flash та 2048 токенів для 2.5 Pro. Це приблизно 750–1500 слів.
Водночас Google рекомендує розміщувати повторюваний контекст на початку запиту, а змінну частину — в кінці. Так імовірність «влучання в кеш» зростає. Важливо розуміти, що наразі компанія не надала незалежного підтвердження ефективності нової системи економії — тож остаточну оцінку дадуть лише ті, хто почне користуватися оновленим API у реальних умовах.
