OpenAI представляє Sora – модель штучного інтелекту для перетворення тексту у відео
OpenAI запускає нову модель генерації відео, яка називається Sora. Компанія заявляє, що Sora “може створювати реалістичні та вигадливі сцени з текстових інструкцій”. Модель перетворення тексту у відео дозволяє користувачам створювати фотореалістичні відео тривалістю до хвилини – і все це на основі написаних ними підказок.
Sora здатна створювати “складні сцени з кількома персонажами, специфічними типами руху і точними деталями об’єкта і фону”, – йдеться у вступному повідомленні в блозі OpenAI. Компанія також зазначає, що модель може розуміти, як об’єкти “існують у фізичному світі”, а також “точно інтерпретувати реквізит і генерувати переконливих персонажів, які виражають яскраві емоції”.
Читайте також: ChatGPT отримує цифрову пам’ять, щоб пам’ятати ваші минулі розмови
Модель також може генерувати відео на основі нерухомого зображення, а також заповнювати відсутні кадри на існуючому відео або розширювати його. Серед демонстраційних роликів, створених Sora, наведених у блозі OpenAI, – повітряна сцена Каліфорнії часів золотої лихоманки, відео, яке виглядає так, ніби його знято зсередини токійського поїзда, та інші. Багато з них мають деякі ознаки штучного інтелекту – наприклад, підозріло рухома підлога на відео з музею – і OpenAI каже, що модель “може мати труднощі з точним моделюванням фізики складної сцени”, але в цілому результати досить вражаючі.
Кілька років тому саме генератори текст-зображення, такі як Midjourney, були на передовій здатності моделей перетворювати слова на зображення. Але останнім часом відео почало вдосконалюватися вражаючими темпами: такі компанії, як Runway і Pika, продемонстрували вражаючі власні моделі перетворення тексту на відео, а Lumiere від Google також є одним із головних конкурентів OpenAI у цій галузі. Подібно до Sora, Lumiere надає користувачам інструменти для перетворення тексту на відео, а також дозволяє створювати відео з нерухомих зображень.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Sora наразі доступна лише “червоним командам”, які оцінюють модель на предмет потенційної шкоди та ризиків. OpenAI також пропонує доступ деяким візуальним художникам, дизайнерам і кінематографістам, щоб отримати зворотній зв’язок. Компанія зазначає, що існуюча модель може неточно імітувати фізику складних сцен і неправильно інтерпретувати певні випадки причинно-наслідкових зв’язків.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
Раніше цього місяця OpenAI оголосила, що додає водяні знаки до свого інструменту перетворення тексту в зображення DALL-E 3, але зазначає, що їх можна “легко видалити”. Як і іншим продуктам зі штучним інтелектом, OpenAI доведеться боротися з наслідками підроблених фотореалістичних відео зі штучним інтелектом, які можуть бути прийняті за справжні.


