Mistral випустила Voxtral — першу відкриту ШІ-аудіомодель для бізнесу
- Французький AI-стартап Mistral випустив Voxtral – свою першу відкриту родину аудіомоделей для бізнесу, що дозволяє транскрибувати та розуміти мовлення.
- Voxtral позиціонується як перша відкрита модель, здатна забезпечити “дійсно корисний голосовий інтелект у продакшені”, пропонуючи доступнішу альтернативу закритим системам.
- Модель може транскрибувати до 30 хвилин аудіо та розуміти до 40 хвилин завдяки своїй LLM-основі Mistral Small 3.1, підтримуючи кілька мов (включаючи англійську, іспанську, німецьку).
- Існують дві версії: Voxtral Small (24B параметрів для продакшену) та Voxtral Mini (3B параметрів для локальних розгортань), а також оптимізована для транскрипції Voxtral Mini Transcribe.
- Користувачі можуть спробувати Voxtral безкоштовно через API на Hugging Face або в чат-боті Le Chat; інтеграція коштує від $0.001 за хвилину.
- Запуск Voxtral підкреслює стратегію Mistral з розвитку відкритих AI-моделей, компанія також нещодавно представила reasoning-модель Magistral і веде переговори про залучення до $1 млрд інвестицій.
Французький стартап Mistral, один із провідних гравців на європейському ринку штучного інтелекту, представив свою першу відкриту аудіомодель – Voxtral. Ця розробка покликана стати альтернативою закритим корпоративним системам, пропонуючи компаніям доступне та функціональне рішення для роботи з голосовими даними. Як пише TechCrunch, про це Mistral оголосила у вівторок, 15 липня 2025 року, позиціонуючи Voxtral як першу відкриту модель, здатну забезпечити “дійсно корисний голосовий інтелект у продакшені”.
З появою Voxtral розробникам більше не доведеться обирати між дешевою, відкритою системою, яка може помилятися у транскрипції та розумінні, і закритою, але функціональною платформою, що обмежує контроль над розгортанням та коштує дорожче. Для бізнесу Voxtral пропонує доступну альтернативу, яка, за заявами компанії, коштує “менше половини ціни” порівнянних рішень.

Mistral стверджує, що Voxtral може транскрибувати до 30 хвилин аудіо. Завдяки своїй основі – великій мовній моделі Mistral Small 3.1 – вона здатна розуміти до 40 хвилин аудіоконтенту. Це дозволяє користувачам ставити запитання щодо аудіо, генерувати резюме або перетворювати голосові команди на дії в реальному часі, такі як виклики API або виконання функцій. Voxtral також є багатомовною, підтримуючи транскрипцію та розуміння англійської, іспанської, французької, португальської, гінді, німецької, нідерландської та італійської мов.
Компанія пропонує два варіанти своїх “моделей розуміння мовлення”:
- Voxtral Small має 24 мільярди параметрів і призначена для розгортання в промислових масштабах. Вона конкурентоспроможна з такими рішеннями, як ElevenLabs Scribe, GPT-4o-mini та Gemini 2.5 Flash.
- Voxtral Mini має 3 мільярди параметрів і орієнтована на локальні та периферійні розгортання. Існує також ультрадешева, спрощена та швидка API-версія 3B моделі під назвою Voxtral Mini Transcribe, оптимізована виключно для транскрипції та обіцяє перевершити OpenAI Whisper за ціною, нижчою ніж у два рази.
Користувачі можуть спробувати Voxtral безплатно, завантаживши API на Hugging Face або протестувавши моделі в чат-боті Mistral Le Chat. Інтеграція API в додатки починається від 0,001 долара США за хвилину.
