Вебскрейпінг-бот Anthropic штурмував iFixit мільйон разів на день
Останнім часом вебсайт iFixit опинився в центрі уваги через масивний напад вебскрейпінг-бота від компанії Anthropic, що розробляє чатбот з ШІ Claude. Цей бот за один день звертався до сайту майже мільйон разів, порушуючи умови використання, які суворо забороняють копіювання чи розповсюдження будь-якого контенту з метою тренування моделей машинного навчання чи штучного інтелекту без попереднього дозволу. Про це пише 404 Media.
Також цікаво: Пошукові системи, які не платять, не можуть індексувати контент Reddit
Реакція CEO iFixit
Генеральний директор iFixit, Кайл Віенс, у середу написав на X, колишньому Твіттері:
“Привіт, @AnthropicAI: розумію, що вам потрібні дані. Claude дуже розумний! Але чи справді вам потрібно звертатися до наших серверів мільйон разів за 24 години? Ви не лише забираєте наш контент без оплати, але й завантажуєте наші DevOps ресурси. Це не круто.”
Також цікаво: Чат-бот Claude від Anthropic отримав безплатний додаток для Android
Наслідки для iFixit
Віенс надав журнали серверів, які показують тисячі запитів на хвилину протягом кількох годин.
“Ми просто найбільша база даних з інформацією про ремонт у світі, не велика справа, якщо вони все заберуть без дозволу і перевантажать наші сервери,” — сказав він.
Вебсайт iFixit має мільйони сторінок, включаючи посібники з ремонту, історії ревізій, блоги, новини, дослідження, форуми, керівництва від спільноти та розділи з питаннями та відповідями.
Також цікаво: Cloudflare запускає інструмент для боротьби зі штучним інтелектом
Проблема вебскрейпінгу
Цей тип скрейпінгу став надзвичайно поширеним. Недавнє дослідження Інституту походження даних показує, що власники вебсайтів дедалі частіше намагаються сигналізувати ШІ-компаніям про небажання, щоб їхній контент використовували для тренування комерційних інструментів ШІ. Віенс повідомив, що цього тижня iFixit змінив свій файл robots.txt, щоб спеціально блокувати боти Anthropic.
Позиція Anthropic
Коли було запитано в Anthropic про мільйонний доступ до iFixit за день, компанія надала блог-пост, у якому зазначено, що відповідальність за блокування їхнього краулера ClaudeBot лежить на власниках вебсайтів.
“Відповідно до галузевих стандартів, Anthropic використовує різноманітні джерела даних для розробки моделей, такі як публічно доступні дані з інтернету, зібрані за допомогою вебкраулера,” — йдеться у пості. “Наші краулінгові дії не повинні бути нав’язливими або порушувати роботу сайтів. Ми прагнемо мінімального впливу, поважаючи затримки краулінгу, де це доречно.”
Пост також додає, що “відмова від краулінгу ClaudeBot вимагає модифікації файлу robots.txt”, що означає, що вказівки щодо неприпустимості скрейпінгу в умовах використання на практиці не мають дії, якщо тільки сайт не подасть позов проти ШІ-компанії.
Висновки дослідження
Широко відомо, що ШІ-компанії майже ніколи не дотримуються умов використання, що цікаво, оскільки багато з них мають дуже довгі умови використання, які іноді обмежують дії користувачів. Дослідження Інституту походження даних показало, що багато вебсайтів вимагають у своїх умовах використання, щоб їхній контент не скрейпили, але це часто ігнорується.
Автор дослідження Шейн Лонгпрі зазначив:
“Трагедія в тому, що умови використання є специфічними та нюансованими, але не можуть бути прочитані машинами, а robots.txt є машинно читабельним, але неймовірно грубим і неспецифічним.”