Stability AI випускає генератор звуку на базі штучного інтелекту
Stability AI, стартап, що стоїть за генератором зображень на основі штучного інтелекту Stable Diffusion, випустив відкриту ШІ-модель для генерації звуків і пісень, яка, за словами компанії, була навчена виключно на записах без авторських відрахувань. Про це повідомляє TechCrunch.
Генеративна модель під назвою Stable Audio Open бере текстовий опис (наприклад, “Рок-біт, зіграний в обробленій студії, сесійні барабани на акустичній установці”) і видає запис тривалістю до 47 секунд. Для навчання моделі було використано близько 486 000 семплів з безплатних музичних бібліотек FreeSound та Free Music Archive.
У Stability AI кажуть, що модель можна використовувати для створення барабанних ударів, інструментальних рифів, навколишніх шумів і “виробничих елементів” для відео, фільмів і телешоу, а також для “редагування” існуючих пісень або застосування стилю однієї пісні (наприклад, smooth jazz) до іншої.
“Ключова перевага цього релізу з відкритим вихідним кодом полягає в тому, що користувачі можуть тонко налаштовувати модель на власних аудіоданих”, — пише Stability AI у своєму корпоративному блозі. “Наприклад, барабанщик може точно налаштувати модель на основі семплів своїх власних записів барабанів, щоб генерувати нові удари”.
Однак Stable Audio Open має свої обмеження. Інструмент не може створювати повноцінні пісні, мелодії чи вокал — принаймні, хороші. Stability AI каже, що він не оптимізований для цього, і пропонує користувачам, які шукають такі можливості, обрати преміум-сервіс Stable Audio від компанії.
Stable Audio Open також не можна використовувати в комерційних цілях — це заборонено умовами надання послуг. Крім того, він не працює однаково добре з різними музичними стилями та культурами, а також з описами іншими мовами, окрім англійської — упередженість Stability AI пов’язана з навчальними даними.
“Джерелу даних потенційно бракує різноманітності, і всі культури не однаково представлені в наборі даних, — пише Stability AI в описі моделі. “Згенеровані зразки моделі відображатимуть упередженість навчальних даних”.