Команда Qwen от Alibaba представила новую открытую модель QVQ-72B-Preview для анализа изображений. Она построена на основе Qwen2-VL-72B, но использует reasoning при решении задач.
В тестах на понимание изображений, включая задачи университетского уровня и олимпиадные задачи по математике и физике, модель показала результаты на уровне закрытых систем вроде o1 и Claude 3.5 Sonnet. QVQ при этом является моделью с открытыми весами.
Впрочем, у модели есть проблемы: она может неожиданно переключаться между языками, застревать в логических циклах или терять фокус при сложном визуальном анализе, что приводит к галлюцинациям. Команда признает необходимость улучшения защитных механизмов перед широким применением. Интересно, а Винни Пуха она распознает?
Qwen называет QVQ своим “последним подарком” года и рассматривает её как шаг к созданию “всезнающей разумной модели” на пути к AGI. В будущем планируется создание единой “омни-модели” для решения более сложных научных задач.