ШІ

ElevenLabs виходить на ринок розпізнавання мови зі Scribe — інструментом перетворення голосу в текст

⠀Поширити:

ElevenLabs, стартап у сфері штучного інтелекту, нещодавно привернув увагу медіа, запустивши свою першу самостійну модель перетворення голосу в текст під назвою Scribe. Це подія знаменує новий етап для компанії, яка раніше відзначалася лише у сфері аудіогенерації.

З новим продуктом ElevenLabs прагне змагатися з такими гігантами, як Gladia, Speechmatics, AssemblyAI, Deepgram та Whisper від OpenAI у сфері розпізнавання мови. Про це пише TechCrunch.

Останні новини: Spotify спрощує випуск аудіокниг завдяки ШІ від ElevenLabs

Запуск Scribe відбувся на фоні успішного залучення $180 мільйонів інвестицій, що підвищило оцінку ElevenLabs до вражаючих $3,3 мільярда. Компанія, яка раніше спеціалізувалася на перетворенні тексту в мову, тепер використовує свій досвід для вдосконалення розпізнавання мови та підвищення точності транскрибування.

Модель Scribe підтримує понад 99 мов, з яких 25 мають відмінну точність. Серед них — англійська з точністю 97%, а також французька, німецька, хінді, японська та українська. Інші мови характеризуються високою, хорошою або помірною точністю.

ElevenLabs виходить на ринок розпізнавання мови зі Scribe — інструментом перетворення голосу в текст

ElevenLabs стверджує, що Scribe демонструє перевагу над Google Gemini 2.0 Flash і Whisper Large V3, змагаючись на тлі інтенсивної конкуренції в цій галузі. Ця нова модель включає кілька передових функцій, таких як розрізнення спікерів, часові мітки на рівні слів для синхронізованого субтитрування та автоматичне маркування звукових подій.



Наразі Scribe працює тільки з попередньо записаними аудіоформатами, що обмежує її використання в живих зустрічах. Проте ElevenLabs обіцяє розробити версію з низькою затримкою для реального часу.

Генеральний директор ElevenLabs Маті Станішевський підкреслив, що, попри досягнення в розпізнаванні мови, існує ще багато простору для поліпшення. Ціна на Scribe становить $0,40 за годину транскрибованого аудіо, що робить її конкурентоспроможною на фоні інших пропозицій на ринку. Сильні позиції ElevenLabs у сфері аудіо-ШІ та їхні амбіції у розпізнаванні мови можуть суттєво вплинути на розвиток цього сегмента.


Google News
Channel Tech в Google News Актуальні новини та аналітика
Читати


⠀Поширити:

Vitaliy Kairov

Засновник видання. Пишу про технології, гаджети та софт. Ціную об'єктивність, якісний звук та лаконічність.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *