OpenAI оновлює свої моделі транскрипції та синтезу голосу
OpenAI нещодавно представила нові моделі для транскрипції та генерації голосу, які значно вдосконалюють попередні версії. Компанія заявляє, що нові моделі мають покращену точність і зручність у використанні, що дозволяє краще виконувати завдання автоматизації для користувачів.
Один із найбільш цікавих аспектів нових оновлень — модель для синтезу голосу “gpt-4o-mini-tts”. Ця модель не тільки генерує більш природний і реалістичний голос, але й дозволяє розробникам управляти ним, задаючи конкретні стилі мовлення. Наприклад, можна вказати, щоб голос звучав, як “сумний вчений”, або ж “мирний голос тренера з медитації”. Така гнучкість дозволяє точніше відповідати вимогам користувачів і створювати голос, який відповідає контексту ситуації, у тому числі, якщо необхідно виразити емоції.
Що стосується нових моделей транскрипції, “gpt-4o-transcribe” та “gpt-4o-mini-transcribe”, вони повинні замінити стару модель Whisper. Нові моделі здатні краще обробляти акцентовану і різноманітну мову, навіть у шумних умовах. За словами представників OpenAI, ці моделі значно знижують кількість помилок і спотворень, що були характерні для Whisper. Наприклад, попередня модель часто вигадувала слова або навіть цілі фрагменти тексту, що викликало непорозуміння, зокрема в медичних та расових контекстах.
Ці нові моделі значно точніші, однак варто зауважити, що точність все ще може варіюватися залежно від мови. Наприклад, для мов Індії, таких як тамільська чи телугу, точність може становити до 70%, що означає, що з кожних 10 слів три будуть помилковими.

Проте, OpenAI не планує відкривати нові моделі для широкого використання. Це рішення продиктовано тим, що моделі значно більші за попередні та потребують значної обчислювальної потужності для коректної роботи. Хоча OpenAI раніше випускала моделі транскрипції під відкритою ліцензією, в цей раз компанія вирішила утримати їх для комерційного використання. Водночас, представники компанії зазначають, що в майбутньому можуть з’явитися моделі, оптимізовані для роботи на кінцевих пристроях користувачів, що дозволить розширити доступ до відкритих моделей.
Джерело: