NVIDIA представила Fugatto: генеративну ШІ-модель для створення звуків із текстових запитів
Компанія NVIDIA презентувала нову експериментальну генеративну ШІ-модель під назвою Foundational Generative Audio Transformer Opus 1, або скорочено Fugatto. Її вже охрестили «швейцарським ножем для звуку». Ця модель здатна створювати аудіо або змінювати наявні музичні, голосові чи звукові файли, використовуючи текстові підказки.
Що може Fugatto
За словами представників NVIDIA, Fugatto створили міжнародна команда дослідників штучного інтелекту. Така співпраця зробила модель більш універсальною, зокрема з точки зору роботи з багатьма мовами та акцентами.
Розробник моделі Рафаель Валле зазначив: «Ми хотіли створити модель, яка розуміє і генерує звуки так, як це роблять люди».
Серед можливих сценаріїв використання Fugatto, які перелічує NVIDIA:
- Музична індустрія: створення прототипів для пісень із можливістю експериментувати зі стилями, голосами й інструментами.
- Освіта: створення матеріалів для мовних курсів із голосами, які можна вибрати.
- Ігрова індустрія: адаптація звукових активів для змін у грі, які залежать від дій гравців.
Крім того, дослідники з’ясували, що модель здатна виконувати завдання, які не були частиною її початкового навчання. Наприклад, Fugatto може поєднувати інструкції, отримані окремо, щоб генерувати мовлення з конкретним акцентом і емоцією, або створювати звуки, що змінюються з часом, як дощова буря, яка проходить через місцевість.
NVIDIA не уточнила, чи планує надати публічний доступ до Fugatto. Однак це не перша технологія генеративного ШІ для створення звуків із тексту. Раніше Meta випустила відкритий інструмент ШІ для створення звуків за текстовими описами, а Google запропонував свою модель MusicLM, доступну через платформу AI Test Kitchen.
Fugatto відкриває нові можливості для взаємодії зі звуками, стаючи інструментом майбутнього для кріейторів, освітян та розробників відеоігор.