/
Source
Alibaba представила новую модель для генерации изображений Qwen-Image. В ней используются 20 миллиардов параметров, использует архитектура MMDiT. Особенность, которую компания позиционирует как ключевую — нормальная генерация текста на изображениях, причем даже иероглифы.
Западные модели до сих пор не справляются с азиатскими языками — DALL-E рисует какие-то каракули вместо иероглифов. Qwen-Image правильно генерирует и смешанный текст, и рукописный и даже презентацию о самой себе.
На бенчмарках, по их словам, обходят всех. Доступ пока только через веб-интерфейс. Но лицензия Apache 2.0, так что, когда выложат, будет интересно посмотреть на работу комьюнити. Тем более, что западные модели и с европейскими языками пока не на 100% справились.