Perplexity знову звинувачують у прихованому скрейпінгу вебсайтів — звіт Cloudflare
- Cloudflare звинувачує Perplexity у “прихованому скрейпінгу” вебсайтів, обході файлів robots.txt та фаєрволів.
- Боти Perplexity нібито маскують свою ідентичність, імітуючи стандартні браузери (наприклад, Google Chrome на macOS) та обертаючи IP-адреси/ASNs.
- Perplexity змогла відображати контент заблокованих сайтів, що підтверджено тестами Cloudflare.
- Cloudflare видалила ботів Perplexity зі списку перевірених та впровадила нові правила для їх блокування.
- Це не перші подібні звинувачення на адресу Perplexity.
Згідно з новим звітом Cloudflare, вебкраулери, розгорнуті Perplexity для збору даних з вебсайтів, нібито обходять встановлені обмеження. Зокрема, звіт стверджує, що боти компанії “приховано сканують” сайти, маскуючи свою ідентичність, щоб обійти файли robots.txt та фаєрволи.
Файл robots.txt дозволяє вебкраулерам знати, чи можуть вони збирати контент вебсайту. Офіційні вебкраулер-боти Perplexity — “PerplexityBot” та “Perplexity-User”. У тестах Cloudflare, Perplexity все одно могла відображати вміст нових, неіндексованих вебсайтів, навіть коли ці конкретні боти були заблоковані файлом robots.txt. Подібна поведінка спостерігалася і на вебсайтах з правилами Web Application Firewall (WAF), які обмежували вебкраулерів.

Cloudflare вважає, що Perplexity обходить ці перешкоди, використовуючи “стандартний браузер, призначений для імітації Google Chrome на macOS”, коли robots.txt забороняє її звичайним ботам. У тестах Cloudflare, неоголошений краулер компанії також міг обертати IP-адреси, не перелічені в офіційному діапазоні IP-адрес Perplexity, щоб проникати через фаєрволи. Cloudflare заявляє, що Perplexity, схоже, робить те саме з автономними системними номерами (ASN) — ідентифікатором для IP-адрес, керованих одним і тим же бізнесом. Cloudflare зауважив, що краулер змінював ASN “на десятках тисяч доменів і мільйонах запитів на день”.
Це не вперше, коли Perplexity звинувачують в обході правил для оновлення даних. У 2024 році численні вебсайти повідомляли, що Perplexity продовжувала отримувати доступ до їхнього контенту, попри заборони в robots.txt. Тоді компанія поклала вину на сторонні вебкраулери, які використовувала. Пізніше Perplexity уклала партнерство з кількома видавцями, щоб ділитися доходом від реклами, що відображається поруч з їхнім контентом, що розцінювалося як спроба виправити попередню поведінку.
Cloudflare заявляє, що видалила ботів Perplexity зі свого списку перевірених ботів та впровадила спосіб ідентифікації та блокування “прихованого” краулера Perplexity від доступу до контенту своїх клієнтів. Компанія очікує, що зупинити компанії від скрейпінгу контенту з інтернету, ймовірно, залишиться грою “бий крота”.
