ШІ

Google Gemini отримав “бананове” оновлення: нова ШІ-модель для редагування зображень

⠀Поширити:

  • Google оновив чат-бот Gemini новою ШІ-моделлю для зображень — Gemini 2.5 Flash Image.
  • Вона забезпечує більш точне редагування фото за запитами природною мовою, зберігаючи послідовність облич та деталей.
  • Розробка Google, відома раніше під псевдонімом “nano-banana”, отримала високі оцінки на платформі LMArena.
  • Нова модель є частиною стратегії Google у конкуренції з OpenAI, чий ChatGPT має 700 млн щотижневих користувачів проти 450 млн щомісячних у Gemini.
  • Google застосовує водяні знаки та ідентифікатори в метаданих для боротьби з дипфейками.

Google оновлює свій чат-бот Gemini, представивши нову ШІ-модель для зображень, яка надає користувачам більш точний контроль над редагуванням фото. Цей крок покликаний наздогнати популярні інструменти OpenAI та залучити користувачів від ChatGPT, повідомляє TechCrunch.

Оновлення, що отримало назву Gemini 2.5 Flash Image, розгортається з 27 серпня 2025 року для всіх користувачів застосунку Gemini, а також для розробників через API Gemini, Google AI Studio та платформи Vertex AI.

Вбудований редактор зображень Gemini 2.5 Flash Image поєднує фотографії собаки та людини, зберігаючи їх схожість.

Нова ШІ-модель призначена для більш точного редагування зображень за допомогою запитів природною мовою, зберігаючи при цьому послідовність облич, тварин та інших деталей. Це є перевагою над багатьма конкурентами, які часто спотворюють обличчя або змінюють фон при редагуванні.

Новий інструмент вже привернув увагу. Нещодавно користувачі соціальних мереж захоплено відгукувалися про ШІ-редактор, який працював на платформі для оцінювання моделей LMArena під псевдонімом “nano-banana”. Google підтвердив, що ця модель є його розробкою, і вона є частиною флагманської моделі Gemini 2.5 Flash.

Google стверджує, що його нова модель штучного інтелекту для обробки зображень є найсучаснішою за кількома показниками

Ніколь Бріхтова, керівниця відділу візуальних генеративних моделей в Google DeepMind, заявила в інтерв’ю, що компанія “справді просуває візуальну якість”, а також здатність моделі “дотримуватися інструкцій”. За її словами, оновлення “робить редагування набагато більш плавним, а результати моделі придатні для будь-яких цілей, для яких ви хочете їх використовувати”.

Gemini 2.5 Flash Image дозволяє користувачам вести «багаторазові» розмови з моделлю штучного інтелекту

Channel Tech в Telegram Актуальні новини та аналітика
Підписатися

ШІ-моделі для зображень стали критично важливим полем битви для великих технологічних компаній. Коли OpenAI запустила нативний генератор зображень GPT-4o, це значно збільшило використання ChatGPT. Для того, щоб конкурувати з OpenAI та Google, Meta оголосила, що ліцензуватиме ШІ-моделі у стартапу Midjourney.

Google також посилив заходи безпеки, які обмежують те, що користувачі можуть створювати. Компанія раніше вибачалася за те, що Gemini генерував історично неточні зображення, і навіть тимчасово відключала генератор. Зараз Google вважає, що досягнув кращого балансу. Компанія застосовує візуальні водяні знаки та ідентифікатори в метаданих, щоб ідентифікувати ШІ-згенеровані зображення та боротися з дипфейками.


Channel Tech в Google News Актуальні новини та аналітика
Читати


⠀Поширити:

Vitaliy Kairov

Засновник видання. Пишу про технології, гаджети та софт. Ціную об'єктивність, якісний звук та лаконічність.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *