В Европе запускается амбициозный проект OpenEuroLLM по созданию действительно открытых языковых моделей для всех 24 официальных языков ЕС, а также языков стран-кандидатов. Бюджет проекта составляет 37,4 млн евро, из которых 20 млн выделяет ЕС.
Консорциум из 20 организаций во главе с чешским лингвистом Яном Гайичем и руководителем финской AI-лаборатории Silo AI Петером Сарлином обещает первые результаты к середине 2026 года. Правда, французский AI-единорог Mistral AI отказался от участия, несмотря на попытки привлечь его к проекту.
Финальные результаты планируется получить к 2028 году. Проект использует наработки предыдущей инициативы HPLT, включая датасет объемом 4,5 петабайта. Основной фокус — на качестве моделей и сохранении лингвистического и культурного разнообразия.
Критики указывают на сложность координации такого количества участников и относительно небольшой бюджет по сравнению с корпоративными гигантами. Кроме того, существует параллельный проект EuroLLM с похожими целями. Однако руководители проекта уверены, что сочетание академической экспертизы и бизнес-фокуса, а также доступ к суперкомпьютерам EuroHPC позволят создать качественные модели.
Интересный вопрос — как создатели будут балансировать между открытостью и качеством. По словам Гайича, для достижения максимального качества придется использовать данные, которые нельзя будет открыто распространять. Хотя аудиторы смогут получить к ним доступ в соответствии с требованиями европейского AI Act.
Ну, посмотрим, практика — критерий истины. В итоге может получиться не самая мощная, но полностью европейская модель. И это выглядит как главная цель проекта — обеспечить цифровой суверенитет ЕС по части AI.