В комментариях уже упоминали голосовую модель Sesame, а вот неплохой обзор на неё. Пишут, что реализм модели таков, что пользователи сообщают об эмоциональной привязанности к AI-ассистенту. Conversational Speech Model (CSM) от Sesame преодолевает “зловещую долину” искусственной речи, имитируя человеческие несовершенства — паузы на вдох, смешки, оговорки и самоисправления.
В отличие от традиционных систем синтеза речи, CSM использует два взаимосвязанных AI-модуля (основной и декодер), обученных на примерно 1 миллионе часов аудио. Модель обрабатывает текст и аудио одновременно, что делает речь более естественной, а в основе лежит, как ни странно, Llama. Всего натренированы три модели разных размеров — от 1 до 8B в основном и от 100 до 300M в декодере.
Реакции пользователей варьируются от восторга до беспокойства. Некоторые называют технологию “потрясающей” и “первым настоящим разговором с AI”, в то время как другие, например редактор PCWorld Марк Хачман, описывают взаимодействие как “пугающее”. Особенно впечатляет способность модели разыгрывать эмоциональные сценарии — например, ссору с разгневанным начальником, что отказывается делать ChatGPT.
Компания Sesame, основанная Бренданом Айрибом, Анкитом Кумаром и Райаном Брауном, получила значительные инвестиции от Andreessen Horowitz и других венчурных фондов. Она планирует сделать ключевые компоненты своей технологии открытыми и расширить поддержку до более чем 20 языков.