/ Source

Компания Mercury представила семейство новых языковых моделей, работающих на основе диффузии (dLLM), а не традиционного авторегрессивного подхода. Это принципиально другой механизм генерации текста — вместо последовательного создания токенов слева направо, диффузионные модели создают ответ по принципу “от грубого к точному”, постепенно улучшая его за несколько шагов “шумоподавления”. Так давно работают все модели text-to-image и вот очередь дошла до текстовых моделей.

Первая доступная модель — Mercury Coder, специализирующаяся на генерации кода. Она работает в 5-10 раз быстрее существующих моделей — более 1000 токенов в секунду на обычных GPU NVIDIA H100, что раньше было возможно только на специализированном оборудовании. Для сравнения: даже оптимизированные по скорости авторегрессивные модели выдают максимум 200 токенов в секунду, а некоторые крупные модели — менее 50.

По качеству код модели превосходит GPT-4o Mini и Claude 3.5 Haiku. В бенчмарке Copilot Arena Mercury Coder Mini делит второе место, опережая даже более крупные модели вроде GPT-4o, при этом работая в 4 раза быстрее, чем GPT-4o Mini. В сравнении, правда, отсутствуют рассуждающие модели и Sonnet 3.5/3.7, которые программируют гораздо лучше.

Компания рассказывает, что диффузионные языковые модели откроют новые возможности: улучшенные агенты, продвинутое рассуждение с исправлением ошибок за секунды (а не минуты, как у текущих моделей), контролируемая генерация с возможностью редактирования и генерации токенов в любом порядке, а также приложения для устройств с ограниченными ресурсами.

Mercury Coder уже доступен для тестирования в playground. API пока закрыто, но можно записаться в лист ожидания.