/ Source

Nvidia представила новую версию своей модели распознавания речи — Parakeet-TDT-0.6B-v2, которая способна транскрибировать 60 минут аудио всего за 1 секунду.

Это обновление модели Parakeet, впервые представленной в январе 2024 года, сейчас возглавляет рейтинг Hugging Face Open ASR Leaderboard со средним показателем ошибок (Word Error Rate) всего 6,05%. Показатель приближается к проприетарным моделям транскрипции, таким как GPT-4o-transcribe от OpenAI (2,46% WER на английском) и ElevenLabs Scribe (3,3%).

Ключевое преимущество новой модели Nvidia — она распространяется по свободной лицензии Creative Commons CC-BY-4.0, разрешающей коммерческое использование. И еще — имеет 600 миллионов параметров и использует комбинацию архитектур FastConformer и TDT. То есть она очень маленькая и вполне поместится не только в память компьютера, но в телефон. Правда, эта модель обучена только на английском языке, но, если ваши проекты живут в инфраструктуре NeMo — у Nvidia есть определенное количество хорошо дотренированных версий открытых LLM, — то стоит посмотреть на эту новинку.