VASA-1 – ШІ від Microsoft, який може перетворювати фотографії на реалістичні відео з людьми, що розмовляють і співають

Microsoft VASA-1: штучний інтелект, що перетворює фотографії людей на реалістичні відео, де вони розмовляють та співають

21 Квітня, 2024 Vitaliy Kairov Microsoft, ШІ248 переглядів 2 хв. читання

⠀Поширити:

Microsoft Research Asia представила новий експериментальний інструмент штучного інтелекту під назвою VASA-1, який може взяти нерухоме зображення людини — або її малюнок — і наявний аудіофайл, щоб створити з них реалістичне обличчя, яке розмовляє в режимі реального часу, повідомляє Engadget.

ШІ VASA-1 має можливість генерувати вираз обличчя і рухи голови для існуючого нерухомого зображення, а також відповідні рухи губ, щоб відповідати промові або пісні. Дослідники завантажили безліч прикладів на сторінку проєкту, і результати виглядають настільки добре, що можуть обдурити людей, змусивши їх думати, що вони справжні.

Хоча рухи губ і голови в прикладах все ще можуть виглядати дещо роботизованими та несинхронними при уважному розгляді, все ж очевидно, що технологія може бути використана для легкого і швидкого створення deepfake відео реальних людей. Самі дослідники усвідомлюють цей потенціал і вирішили не випускати “онлайн-демонстрацію, API, продукт, додаткові деталі реалізації або будь-які пов’язані пропозиції”, поки не будуть впевнені, що їхня технологія “буде використовуватися відповідально і відповідно до належних правил”. Вони, однак, не сказали, чи планують впровадити певні запобіжники, щоб запобігти використанню технології зловмисниками в недобрих цілях, наприклад, для створення фальшивого порно або дезінформаційних кампаній.

Дослідники вважають, що їхня технологія має безліч переваг, попри її потенціал для зловживань. За їхніми словами, вона може бути використана для підвищення освітньої справедливості, а також для покращення доступності для тих, хто має проблеми з комунікацією, можливо, шляхом надання їм доступу до аватара, який може спілкуватися за них. Він також може забезпечити спілкування і терапевтичну підтримку для тих, хто її потребує, сказали вони, натякаючи на те, що VASA-1 може бути використаний в програмах, які пропонують доступ до персонажів зі штучним інтелектом, з якими люди можуть розмовляти.

Згідно з документом, опублікованим разом з анонсом, VASA-1 навчався на базі даних VoxCeleb2, яка містить “понад 1 мільйон висловлювань для 6 112 знаменитостей”, витягнутих з відеороликів на YouTube. Хоча інструмент навчався на реальних обличчях, він також працює на художніх фотографіях, таких як Мона Ліза, яку дослідники кумедно поєднали з аудіофайлом вірусного виконання Енн Хетеуей пісні Lil Wayne “Paparazzi”. Це настільки захоплююче, що варто подивитися, навіть якщо ви сумніваєтеся, наскільки корисною може бути така технологія.

⠀Поширити:

Vitaliy Kairov

Залишити відповідь Скасувати коментар