ElevenLabs виходить на ринок розпізнавання мови зі Scribe — інструментом перетворення голосу в текст
ElevenLabs, стартап у сфері штучного інтелекту, нещодавно привернув увагу медіа, запустивши свою першу самостійну модель перетворення голосу в текст під назвою Scribe. Це подія знаменує новий етап для компанії, яка раніше відзначалася лише у сфері аудіогенерації.
З новим продуктом ElevenLabs прагне змагатися з такими гігантами, як Gladia, Speechmatics, AssemblyAI, Deepgram та Whisper від OpenAI у сфері розпізнавання мови. Про це пише TechCrunch.
Останні новини: Spotify спрощує випуск аудіокниг завдяки ШІ від ElevenLabs
Запуск Scribe відбувся на фоні успішного залучення $180 мільйонів інвестицій, що підвищило оцінку ElevenLabs до вражаючих $3,3 мільярда. Компанія, яка раніше спеціалізувалася на перетворенні тексту в мову, тепер використовує свій досвід для вдосконалення розпізнавання мови та підвищення точності транскрибування.
Модель Scribe підтримує понад 99 мов, з яких 25 мають відмінну точність. Серед них — англійська з точністю 97%, а також французька, німецька, хінді, японська та українська. Інші мови характеризуються високою, хорошою або помірною точністю.

ElevenLabs стверджує, що Scribe демонструє перевагу над Google Gemini 2.0 Flash і Whisper Large V3, змагаючись на тлі інтенсивної конкуренції в цій галузі. Ця нова модель включає кілька передових функцій, таких як розрізнення спікерів, часові мітки на рівні слів для синхронізованого субтитрування та автоматичне маркування звукових подій.
Наразі Scribe працює тільки з попередньо записаними аудіоформатами, що обмежує її використання в живих зустрічах. Проте ElevenLabs обіцяє розробити версію з низькою затримкою для реального часу.
Генеральний директор ElevenLabs Маті Станішевський підкреслив, що, попри досягнення в розпізнаванні мови, існує ще багато простору для поліпшення. Ціна на Scribe становить $0,40 за годину транскрибованого аудіо, що робить її конкурентоспроможною на фоні інших пропозицій на ринку. Сильні позиції ElevenLabs у сфері аудіо-ШІ та їхні амбіції у розпізнаванні мови можуть суттєво вплинути на розвиток цього сегмента.
