Google знижує вартість доступу до ШІ-моделей Gemini: автоматичне кешування вже працює

10 Травня, 2025 Vitaliy Kairov Gemini, Google, ШІ353 переглядів 1 хв. читання

⠀Поширити:

Google запустила автоматичне кешування в API Gemini, що дозволяє зменшити витрати на ШІ-моделі до 75% без ручної оптимізації. Функція працює за замовчуванням і не потребує додаткових налаштувань.

Google запроваджує нову функцію у своєму Gemini API — так зване «неявне кешування», яке автоматично зменшує витрати на використання штучного інтелекту. За словами компанії, це рішення дозволяє скоротити вартість обробки повторюваного контексту до 75% без будь-яких додаткових дій з боку розробників.

Нововведення стосується моделей Gemini 2.5 Pro та Gemini 2.5 Flash. Суть неявного кешування полягає в автоматичному збереженні та повторному використанні вже оброблених запитів. Якщо новий запит починається з такого ж тексту, як і попередній, система просто використовує вже згенеровану відповідь. Розробникам більше не потрібно вручну визначати найчастіше використовувані підказки, як це було раніше з явним кешуванням, яке вимагало складної ручної оптимізації.

We just shipped implicit caching in the Gemini API, automatically enabling a 75% cost savings with the Gemini 2.5 models when your request hits a cache 🚢

We also lowered the min token required to hit caches to 1K on 2.5 Flash and 2K on 2.5 Pro!
— Logan Kilpatrick (@OfficialLoganK) May 8, 2025

Попередній механізм кешування викликав чимало нарікань: деякі розробники повідомляли про неочікувано високі рахунки при роботі з Gemini 2.5 Pro. Реакція спільноти змусила команду Gemini вибачитися та пообіцяти зміни — саме так і з’явилося автоматичне кешування.

Тепер функція активна за замовчуванням. Вона спрацьовує, якщо запит до API має спільний початок із попередніми — і користувач одразу отримує знижку. За документацією Google, для цього потрібно не так вже й багато: від 1024 токенів для 2.5 Flash та 2048 токенів для 2.5 Pro. Це приблизно 750–1500 слів.

Водночас Google рекомендує розміщувати повторюваний контекст на початку запиту, а змінну частину — в кінці. Так імовірність «влучання в кеш» зростає. Важливо розуміти, що наразі компанія не надала незалежного підтвердження ефективності нової системи економії — тож остаточну оцінку дадуть лише ті, хто почне користуватися оновленим API у реальних умовах.

🔗Джерело: TechCrunch

⠀Поширити:

Vitaliy Kairov

Залишити відповідь Скасувати коментар