Cloudflare запускає інструмент для боротьби зі штучним інтелектом
Cloudflare, публічний постачальник хмарних послуг, запустив новий безплатний інструмент, який запобігає вилученню ботами даних з вебсайтів, розміщених на його платформі, для навчання ШІ-моделей. Про це повідомляє TechCrunch.
Деякі виробники ШІ, зокрема Google, OpenAI та Apple, дозволяють власникам вебсайтів блокувати ботів, яких вони використовують для збору даних і навчання моделей, шляхом внесення змін до robots.txt – текстового файлу, який вказує ботам, до яких сторінок вебсайту вони можуть отримати доступ. Але, як зазначає Cloudflare в повідомленні про свій інструмент для боротьби з ботами, не всі скрепери зі штучним інтелектом дотримуються цього правила.
“Клієнти не хочуть, щоб боти зі штучним інтелектом відвідували їхні вебсайти, а особливо ті, які роблять це нечесно, – пише компанія у своєму офіційному блозі. “Ми побоюємося, що деякі компанії, які мають намір обійти правила доступу до контенту, будуть наполегливо адаптуватися, щоб уникнути виявлення ботів”.
Намагаючись розв’язувати цю проблему, Cloudflare проаналізувала трафік ШІ-ботів і пошукових роботів, щоб доопрацювати моделі автоматичного виявлення ботів. Моделі враховують, серед іншого, те, чи може ШІ-бот намагатися уникнути виявлення, імітуючи зовнішній вигляд і поведінку людини, яка користується веббраузером.
“Коли зловмисники намагаються масштабно сканувати вебсайти, вони, як правило, використовують інструменти та фреймворки, які ми можемо ідентифікувати, – пише Cloudflare. “На основі цих сигналів наші моделі здатні належним чином позначати трафік від ботів, що ухиляються від ШІ, як ботів”.
Cloudflare створила форму для хостів, щоб повідомляти про підозрілі ШІ-боти та кроулери, і заявляє, що з часом продовжить вручну вносити ШІ-ботів до чорного списку.
Проблема ШІ-ботів різко загострилася, оскільки бум генеративного ШІ підживлює попит на дані для навчання моделей.
Багато сайтів, побоюючись, що постачальники ШІ навчають моделі на їхньому контенті без попередження або компенсації, вирішили заблокувати ШІ-скрепери та краулери. Згідно з одним дослідженням, близько 26% з 1000 найбільших сайтів в Інтернеті заблокували бота OpenAI; інше дослідження показало, що понад 600 видавців новин заблокували бота.
Однак блокування не є надійним захистом. Як згадувалося раніше, деякі постачальники, схоже, ігнорують стандартні правила виключення ботів, щоб отримати конкурентну перевагу в гонці штучного інтелекту. Пошукову систему Perplexity нещодавно звинуватили в тому, що вона видає себе за законних відвідувачів, щоб вилучати контент з вебсайтів, а OpenAI та Anthropic, як кажуть, іноді ігнорують правила robots.txt.
Минулого місяця стартап TollBit, що займається ліцензуванням контенту, у листі до видавців повідомив, що “багато ШІ-агентів” ігнорують стандарт robots.txt.
Інструменти на кшталт Cloudflare можуть допомогти – але тільки якщо вони виявляться точними у виявленні підпільних ШІ-ботів. І вони не вирішать більш нерозв’язну проблему, коли видавці ризикують пожертвувати реферальним трафіком від таких інструментів ШІ, як Google AI Overviews, які виключають сайти з пошуку, якщо вони блокують певних пошукових роботів зі штучним інтелектом.