В связи с утечкой 48 гигов кода из Яндекса мне вспоминается история, кажется, года 2011-го, когда мы готовились к очередной оптимизаторской конференции. Ребята из маркетинга поиска придумывали развлечения на тему машинного обучения, когда кто-то предложил — «А давайте им формулу релевантности покажем?».
Я, помнится, сразу предложил скрытой камерой снимать тех, кто остановится и начнет записывать.
Дело в том, что на тот момент «формула релевантности» представляла из себя программу из примерно 20 тысяч строк на plain C, причем сгенерированную компьютером же — то есть без комментариев, без понятных переменных и так далее. Даже при очень медленной прокрутке на экране прочесть и разобраться в ней было бы очень сложно. Но самое главное — она в принципе не имеет никакого смысла без индекса, который из себя представляет не одну таблицу и даже не большую базу данных, а множество таких баз с весами, коэффициентами, координатами и всем, что только можно. И это не учитывая разных хаков имени конкретного разработчика.
Короче, «скачать весь Яндекс» — это как угнать бронепоезд. Причем без рельсов. И не в Яндексе одном дело — как выглядят мучения разработчика, вдруг попавшего вовнутрь Twitter, мы видели пару месяцев назад на примере geohotz.