| Телеграм-канал БлоGнот

5 июня 2025 г. / Source

ElevenLabs выкатили новую версию своего TTS движка — v3 пока в стадии alpha и доступна только через сайт, публичный доступ к API скоро будет. Новая версия поддерживает аудиотэги — то есть разметку текста, позволяющую управлять генерацией голоса, — и лучше понимает читаемый текст. Кроме того, можно сгенерировать диалог нескольких спикеров, причем всё это неплохо поддерживается на более чем 70 языках.

Правда, использование всех возможностей требует определенной работы над промптом, но это лучше, чем раньше, когда из всех возможностей была только пауза до 3 секунд. Учитывая, что это альфа-версия, можно простить нестабильность результатов и некоторое отсутствие регулировок — например, в половине случаев мой текст начинали читать очень не торопясь, а одна из вариаций рекламного ролика оставила ощущение, что диктор бежит за аудиторией по шумной улице и кричит вдогонку. Но все равно стоит смотреть, если вам нужно что-то озвучивать.