/ Source

NVIDIA выпустила Nemotron 3 Super — открытую модель на 120 млрд параметров, из которых при инференсе активны только 12 млрд. Гибридная архитектура сочетает слои Mamba для эффективной работы с памятью и трансформерные слои для рассуждений. Заявлено пятикратное увеличение пропускной способности по сравнению с предыдущей версией.

Модель позиционируется именно под агентные системы — она позволяет справляться с большим объемом контекста. Правда, локально ее будет не очень просто запустить — возможно, влезет в MacBook Pro со 128 гигабайтами памяти, версии с Q4 уже есть.

Отдельно стоит отметить открытость: как и с младшей Nano, NVIDIA публикует не только веса, но и полную методологию обучения, включая более 10 трлн токенов данных и 15 сред для обучения с подкреплением. Я уже знаю про некоторые проекты, использующие эти возможности, хотя для Super финансирование нужно посерьезнее.