Видавці блокують Internet Archive через побоювання несанкціонованого збору даних для ШІ

31 Січня, 2026 Vitaliy Kairov Internet Archive, Wayback Machine, ШІ63 переглядів 2 хв. читання

⠀Поширити:

Великі видання, серед яких The New York Times та The Guardian, закрили доступ ботам Internet Archive до свого контенту.
Медіа побоюються, що розробники ШІ використовують Wayback Machine як обхідний шлях для безплатного збору текстів для навчання моделей.
До блокування також приєдналися Financial Times та платформа Reddit.
Конфлікт є частиною масштабної юридичної війни між правовласниками та технологічними компаніями, такими як OpenAI, Microsoft та Google.

Internet Archive, який тривалий час був ресурсом для журналістів та дослідників, зіткнувся з обмеженнями з боку провідних медіахолдингів. Ряд видань почав блокувати доступ інструментів некомерційної цифрової бібліотеки до своїх матеріалів. Причиною стало побоювання, що ШІ-компанії використовують архіви Wayback Machine для непрямого викачування (скрапінгу) контенту без дозволу правовласників. Про це пише Engadget.

У The Guardian зазначають, що розробники ШІ шукають готові структуровані бази даних, і API Internet Archive є очевидним місцем для масового збору інтелектуальної власності. Представники The New York Times підтвердили блокування ботів архіву, оскільки сервіс надає «безперешкодний доступ» до платних матеріалів видання, чим користуються розробники штучного інтелекту. Аналогічні кроки щодо вибіркового блокування каталогізації зробили Financial Times та Reddit.

Зараз триває низка судових процесів, де видавці намагаються захистити свій контент від використання для навчання великих мовних моделей:

The New York Times: позов проти OpenAI та Microsoft.
The Center for Investigative Reporting: позов проти OpenAI та Microsoft.
The Wall Street Journal та New York Post: позов проти Perplexity.
Група видавців (The Atlantic, The Guardian, Politico): позов проти Cohere.
Penske Media: позов проти Google.
The New York Times та Chicago Tribune: позов проти Perplexity.

Окремі медіа обирають шлях укладання фінансових угод з технологічними гігантами, продаючи доступ до своїх бібліотек для навчання нейромереж. Проте такі домовленості зазвичай передбачають компенсації видавничим компаніям, а не авторам текстів. Подібні конфлікти щодо авторського права та піратства також тривають у сферах художньої літератури, візуального мистецтва та музики.

⠀Поширити:

Vitaliy Kairov

Залишити відповідь Скасувати коментар