OpenAI заявляє, що їх новий ШІ Voice Engine може клонувати голос
Компанія OpenAI щойно оголосила про те, що нещодавно провела невелику попередню демонстрацію нового інструменту під назвою Voice Engine. Це технологія клонування голосу, яка може імітувати будь-якого оратора, аналізуючи 15-секундний аудіозапис. Компанія заявляє, що вона генерує “природне звучання мови” з “емоційними та реалістичними голосами”. Про це повідомляє Engadget.
Технологія базується на вже існуючому API компанії для перетворення тексту в мовлення і знаходиться в розробці з 2022 року. OpenAI вже використовує версію інструментарію для роботи з попередньо встановленими голосами, доступними в поточному API перетворення тексту в мовлення та функції “Читання вголос”. В офіційному блозі компанії є кілька зразків, і вони звучать дуже схоже на справжній голос. Це дійсно варто послухати, щоб уявити собі можливості, як хороші, так і погані. До прикладу, перший файл нижче – англомовний зразок, який був використаний у якості референсного, другий – створений штучним інтелектом фрагмент аудіо, клонований голос іспанською.
В OpenAI кажуть, що бачать цю технологію корисною для допомоги в читанні, перекладі та допомозі тим, хто страждає від раптових або дегенеративних розладів мовлення. Компанія нагадала про пілотну програму Університету Брауна, яка допомогла пацієнту з проблемами мовлення, створивши клон голосового двигуна, витягнутий з аудіозапису, записаного для шкільного проєкту.
Попри потенційні переваги, недобросовісні актори неодмінно зловживали б цією технологією для серйозних фальшивих обманів, що вже є проблемою. З огляду на це, Voice Engine ще не зовсім готовий до прайм-тайму, оскільки існують серйозні проблеми з конфіденційністю, які повинні бути вирішені до повного розгортання.
OpenAI визнає, що ця технологія має “серйозні ризики, які особливо актуальні в рік виборів”. Компанія заявляє, що враховує відгуки “американських і міжнародних партнерів з уряду, ЗМІ, індустрії розваг, освіти, громадянського суспільства та інших сфер”, щоб забезпечити запуск продукту з мінімальним рівнем ризику. Всі учасники попереднього тестування погодилися з політикою використання OpenAI, яка забороняє видавати себе за іншу особу без згоди або законного права.
Крім того, будь-хто, хто використовує технологію, повинен буде повідомити свою аудиторію, що голоси генеруються штучним інтелектом. OpenAI впровадила заходи безпеки, такі як водяні знаки для відстеження походження будь-якого аудіо та “проактивний моніторинг” того, як використовується система. Коли продукт буде офіційно запущений, з’явиться “список заборонених голосів”, який буде виявляти й запобігати використанню згенерованих штучним інтелектом голосів, занадто схожих на видатних особистостей.
Щодо того, коли це станеться, OpenAI поки що не розголошує. TechCrunch розкрив деякі потенційні цінові дані, і схоже, що це потіснить конкурентів у цій галузі, таких як ElevenLabs. Voice Engine може коштувати $15 за мільйон символів, що становить близько 162 500 слів. Це приблизно довжина роману Стівена Кінга “Сяйво”. Це, безумовно, звучить як бюджетний спосіб створити аудіокнигу. У маркетингових матеріалах також згадується версія “HD”, яка коштує вдвічі дорожче, але компанія не пояснює, як це буде працювати.
Цього тижня OpenAI робить великі кроки. Компанія щойно оголосила про ще одне партнерство зі своїм найкращим другом Microsoft для створення суперкомп’ютера на основі ШІ під назвою “Зоряна брама”. Як повідомляється, проєкт коштуватиме колосальні 100 мільярдів доларів, повідомляє The Information.