| Телеграм-канал БлоGнот

29 апреля 2025 г. / Source

Alibaba представила свою новую линейку моделей искусственного интеллекта Qwen3, которая, по заявлению компании, может соперничать и даже превосходить лучшие модели Google и OpenAI.

Базовые версии — это две модели MoE (mixture of expert): Qwen3-235B-A22B и Qwen3-30B-A3B (соответственно 235 и 30 млрд параметров всего и 22/3 млрд одновременно активны). Кроме этого, представлены 6 dense моделей с лицензией Apache: 32B, 14B, 8B, 4B, 1.7B и 0.6B параметров.

Для крупнейших моделей использован рецепт, схожий с DeepSeek R1: SFT для поведения CoT, масштабный этап рассуждений RL, и традиционный RL на основе предпочтений. Остальные модели обучены путем дистилляции на данных крупных моделей. При этом модели, по аналогии с Claude, могут использовать режим рассуждений.

Модели Qwen3 поддерживают 119 языков и были обучены на двух наборах данных — более 30T токенов общих данных и 5T токенов “высококачественных” данных.

Самая крупная модель, Qwen-3-235B-A22B, немного превосходит OpenAI o3-mini и Google Gemini 2.5 Pro в соревнованиях по программированию Codeforces, а также превосходит o3-mini в сложных математических тестах AIME. Однако эта модель пока не доступна публично. Впрочем, рядовому пользователю это немного все равно, запустить её локально все равно не выйдет.

Правда, модели пока не мультимодальные.

Теперь все ждем сегодняшних анонсов Meta на LlamaCon — возможно, там тоже покажут “рассуждающую” Llama и немного вернут её в фокус внимания сообщества.