Veo 2 від Google демонструє краще розуміння фізики та людської пластики
Google не зволікає з удосконаленням своїх інструментів штучного інтелекту. Лише нещодавно компанія почала впроваджувати Veo для корпоративних клієнтів, як у понеділок анонсувала попередній перегляд нової версії – Veo 2. За словами компанії, Veo 2 “розуміє мову кінематографії”.
Головною особливістю Veo 2 є здатність враховувати специфіку кінематографічних жанрів, ефектів і навіть характеристик лінз під час створення відео. Це означає, що користувачі можуть вводити запити, пов’язані з конкретним стилем фільму, і модель адаптується під ці вимоги.
Окрім цього, Google заявляє, що Veo 2 краще моделює фізику руху і людську пластику. Це значне досягнення, адже багато генеративних моделей стикаються з проблемами відтворення складних рухів, особливо людських. Проте реальні можливості Veo 2 оцінити поки складно – справжнім тестом стане спроба створити, наприклад, відео з гімнастичною вправою.
Ще одне оновлення стосується зменшення частоти появи артефактів, як-от зайвих пальців. Хоча проблема не зникне повністю, компанія наголошує, що з Veo 2 вона виникатиме рідше.
Паралельно з Veo 2 Google оновила text-to-image модель Imagen 3. Згідно з компанією, нова версія створює яскравіші, краще скомпоновані зображення і точніше дотримується запитів користувачів. Водночас вона забезпечує ширшу різноманітність художніх стилів.
Раніше Imagen 3 мала труднощі з точністю виконання запитів, але Google врахувала ці зауваження і працює над поліпшенням цього аспекту.





Veo 2 поступово стане доступним користувачам Google Labs у США. На першому етапі тестування обмежується створенням відео тривалістю до 8 секунд з роздільною здатністю 720p. Для порівняння, конкурентна модель Sora генерує до 20 секунд відео у форматі 1080p, але її використання коштує $200 на місяць у тарифному плані ChatGPT Pro.
Що стосується оновлення Imagen 3, то ця функція вже доступна через платформу ImageFX для користувачів у більш ніж 100 країнах.