/ Source

С начала 2024 года Wikimedia наблюдает беспрецедентный рост трафика, особенно связанного со скачиванием мультимедийного контента. Причина не в росте числа обычных пользователей, а в массовом автоматизированном сборе данных для обучения моделей ИИ.

С января 2024 года пропускная способность, используемая для загрузки мультимедийного контента, выросла на 50%. Около 65% дорогостоящего трафика, попадающего в основные дата-центры Wikimedia, генерируется ботами, хотя общая доля просмотров от ботов составляет лишь 35%.

Проблема с ботами в том, что они запрашивают намного больше страниц, чем пользователи, при этом многие запросы включают малопосещаемые страницы, обходя таким образом дешевый кэш.