MiniMax представил новую языковую модель M1, которая, по заявлениям компании, превосходит все закрытые китайские модели и показывает лучшие результаты, чем DeepSeek R1 в нескольких бенчмарках.
Модель поддерживает контекстное окно в миллион токенов — в восемь раз больше, чем у DeepSeek R1, и в некоторых случаях требует всего 30% вычислительных ресурсов конкурента. Для обучения M1 использовали 512 графических процессоров Nvidia H800 стоимостью аренды $534,700. Общее количество параметров — 456 млрд, но на токен активируется только 45,9 млрд.
Модель доступна на HuggingFace в двух вариантах бюджета на reasoning.
Кроме этого, Minimax представили новую версию видео-модели Hailou O2. Первая версия была очень неплоха, кстати говоря, а сейчас обещают расширение 1080p и точное соблюдение сложных физических деталей.