Meta выкатила свой вариант вирусной фичи из NotebookLM от Google — NotebookLlama. Решение открытое и его можно развернуть хоть в локальном окружении.
Вообще, если посмотреть внимательно, то выглядящая волшебной функция в сервисе Google — вы даёте документы и через некоторое время прокручивания спиннера слышите два человеческих голоса, обсуждающих их содержание, — тут выглядит разложенной на очень простые составляющие и лишенная магии. Сначала самая минимальная модель — 1B — переводит источник из PDF в текст. Затем мощная модель — Llama-3.1-70B-Instruct, — пишет сценарий со всеми репликами. На следующем этапе менее сложная модель — Llama-3.1-8B-Instruct — обрабатывает текст, добавляя драматизма и эмоций, после чего движок text-to-speech — Parler и Suno в данном случае, — генерирует собственно аудио.
Правда, модель с 70B параметров будет затруднительно развернуть локально — ей понадобится порядка 140 гигабайт памяти, желательно видео, — но авторы уверяют, что можно вместо неё использовать версию с 8B. В принципе, заглянув внутрь ноутбуков, можно достать все необходимые параметры, чтобы, например, заменить локальную модель запросами через API или, в рамках эксперимента, заменить Llama на GPT-4o или Claude 3.5 Sonnet и посмотреть, что получится.