После жалоб клиентов Cloudflare провела расследование и выяснила, что Perplexity нарушает стандарты индексирования, общепринятые уже много лет в интернете. Даже когда сайты явно запрещают сканирование в robots.txt и блокируют официальные боты Perplexity, компания все равно достает контент через краулеры, маскирующиеся под обычный браузер Chrome.
Методика выглядит так — сначала приходит официальный PerplexityBot. Если его блокируют — включается план Б с user agent “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)”. Кроме того, используется постоянная ротация IP из разных сетей и даже автономных систем.
Всё это явно нарушает Robots Exclusion Protocol, описанный в RFC, и до сих пор считавшийся практически незыблемым — по крайней мере, до сих пор компании, замеченные в его нарушении, краснели, извинялись и прекращали подобную практику. Но Perplexity явно нацелилась на лавры enfant terrible среди AI и поисковиков.
Cloudflare уже исключила Perplexity из списка верифицированных ботов и добавила блокировку в свои правила. Это доступно всем клиентам, включая бесплатные аккаунты. Впрочем, как пишут сами Cloudflare, после публикации этого поста поведение Perplexity наверняка изменится. И начнется новый раунд игры в кошки-мышки.