Google нарешті навчила ШІ правильно писати текст на зображеннях — представлено Imagen 4
На конференції Google I/O компанія представила Imagen 4 — оновлену модель генерації зображень, яка, за словами Google, нарешті навчилася правильно й чітко відтворювати текст. Це суттєвий прорив для генеративного ШІ, адже більшість подібних моделей досі не справлялися з написами або спотворювали їх.
Imagen 4 — це поєднання точності, швидкості та уваги до деталей. Як заявив віцепрезидент Google DeepMind Елі Коллінз, нова версія вражає чіткістю навіть у таких нюансах, як текстура тканин, краплі води чи хутро. Модель однаково добре працює і в реалістичному, і в абстрактному стилі, зберігаючи точність навіть у дрібних шрифтах.




Тепер створити листівку, постер, мем або комікс із правильними літерами, а не набором символів, які тільки імітують текст, стало реальністю. На прикладах, які показала Google, можна побачити, що система справляється навіть зі складними написами, не спотворюючи форму літер.
Imagen 4 уже інтегрована в додатки Gemini, Whisk, Vertex AI, а також у середовище Workspace — тобто, користувачі можуть використовувати її в Google Docs, Slides, а також у новому відеоредакторі Google Vids. Google також готує прискорену версію моделі, яка працюватиме у 10 разів швидше за попередню Imagen 3.



Це частина ширшої екосистеми інструментів на базі Gemini. Google бачить Imagen 4 як інструмент для ілюстрацій за текстовими запитами, генерації візуального контенту для презентацій та персоналізованих документів.
Серед інших анонсів на I/O — новий тариф AI Ultra за $250 на місяць, функція перекладу в реальному часі у Google Meet, генератор інтерфейсів Stitch, інтеграція Gemini у Chrome, а також розумні окуляри Project Aura на базі Android XR.


