Дослідницька лабораторія Google DeepMind представила новий ШІ для створення саундтреків і діалогів для відео

18 Червня, 2024 Vitaliy Kairov DeepMind, Google, ШІ293 переглядів 2 хв. читання

Гучний прорив у світі ШІ: DeepMind генерує саундтреки та діалоги для відео

Компанія DeepMind, дослідницька лабораторія ШІ від Google, заявила про розробку технології ШІ, яка здатна створювати саундтреки для відео.

ШІ для аудіо: новий етап розвитку

У своєму офіційному блозі DeepMind повідомляє, що нова технологія V2A (скорочення від “video-to-audio”) є важливою частиною пазла медіа, створеного ШІ. Попри те, що багато організацій, включаючи DeepMind, вже розробили моделі ШІ для генерації відео, ці моделі не можуть створювати звукові ефекти, які синхронізуються з відео.

“Моделі генерації відео розвиваються з неймовірною швидкістю, але багато поточних систем можуть створювати лише беззвучний контент,” пише DeepMind. “Технологія V2A може стати перспективним підходом для оживлення створених фільмів.”

Як працює V2A

Технологія V2A використовує опис саундтреку (наприклад, “медузи, що пульсують під водою, морське життя, океан”), поєднаний з відео, для створення музики, звукових ефектів і навіть діалогів, які відповідають персонажам і тону відео. Модель ШІ, що стоїть за V2A, була навчена на комбінації звуків, транскрипцій діалогів та відеокліпів.

“Навчаючись на відео, аудіо та додаткових анотаціях, наша технологія вчиться асоціювати специфічні аудіо події з різними візуальними сценами, реагуючи на інформацію, надану в анотаціях або транскрипціях,” пояснює DeepMind.

Конкуренція та унікальність

Інструменти для генерації звуків на базі ШІ не є новинкою. Стартап Stability AI випустив один з таких інструментів минулого тижня, а ElevenLabs запустила подібний ще в травні. Проте, DeepMind стверджує, що їхня технологія V2A унікальна тим, що може розуміти сирі пікселі з відео та автоматично синхронізувати створені звуки з відео.

Однак, V2A не ідеальна. Оскільки основна модель не була навчена на багатьох відео з артефактами або спотвореннями, вона не створює якісного аудіо для таких матеріалів. Загалом, згенероване аудіо не є дуже переконливим.

Майбутнє V2A

Через потенційні ризики та можливість зловживань, DeepMind поки що не планує випускати технологію у відкритий доступ. Компанія збирає різні думки та відгуки від провідних творців і кінорежисерів, використовуючи ці цінні дані для подальшого розвитку.

“Перш ніж ми розглянемо можливість надання доступу до V2A широкому загалу, наша технологія пройде ретельну оцінку безпеки та тестування,” зазначає DeepMind.

DeepMind вважає, що їхня технологія V2A буде особливо корисною для архівістів та тих, хто працює з історичними кадрами. Проте, подібні інновації загрожують радикально змінити індустрію кіно та телебачення, і для збереження робочих місць потрібні будуть серйозні трудові захисти.

ШІ для аудіо: новий етап розвитку

Як працює V2A

Конкуренція та унікальність

Майбутнє V2A

Vitaliy Kairov

Залишити відповідь Скасувати коментар