Wikipedia відкриває доступ до своїх даних для ШІ — щоб віднадити ботів-скрейперів
Wikipedia відкрила спеціальний датасет для розробників ШІ, щоб зменшити навантаження на сервери, викликане ботами. Він містить текстову інформацію без посилань, і вже доступний на Kaggle.
Wikipedia намагається знайти спосіб захистити свої сервери від перенавантаження через активність ботів, які збирають контент для навчання генеративних моделей штучного інтелекту. Щоб зменшити тиск на інфраструктуру і зберегти стабільність для реальних користувачів, Фонд Вікімедіа запропонував розробникам ШІ готовий датасет для навчання.
Фонд Вікімедіа, який управляє Wikipedia, представив бета-версію структуруваного датасету англійською та французькою мовами. Його публікація відбулася спільно з платформою Kaggle, що належить Google. Датасет розроблений спеціально для потреб машинного навчання та аналітики, і може стати повноцінною заміною “скрейпінгу” реального сайту.
У наборі даних доступні анотації, короткі описи, ключова інформація у форматі “інфобоксів”, посилання на зображення, а також чітко структуровані розділи статей. Водночас у файлі відсутні відео, зовнішні посилання та інші елементи, не пов’язані з текстом.
Контент, згідно з умовами, поширюється за вільною ліцензією Creative Commons. Проте через відсутність посилань на першоджерела, використання цього датасету може викликати питання щодо точного атрибутування інформації. Wikimedia Enterprise — комерційне крило фонду, яке займається API-доступом до контенту Wikipedia — зазначає, що весь контент у датасеті є вільним для використання.
