ІнтернетШІ

Wikipedia відкриває доступ до своїх даних для ШІ — щоб віднадити ботів-скрейперів

⠀Поширити:

Wikipedia відкрила спеціальний датасет для розробників ШІ, щоб зменшити навантаження на сервери, викликане ботами. Він містить текстову інформацію без посилань, і вже доступний на Kaggle.


Wikipedia намагається знайти спосіб захистити свої сервери від перенавантаження через активність ботів, які збирають контент для навчання генеративних моделей штучного інтелекту. Щоб зменшити тиск на інфраструктуру і зберегти стабільність для реальних користувачів, Фонд Вікімедіа запропонував розробникам ШІ готовий датасет для навчання.

Фонд Вікімедіа, який управляє Wikipedia, представив бета-версію структуруваного датасету англійською та французькою мовами. Його публікація відбулася спільно з платформою Kaggle, що належить Google. Датасет розроблений спеціально для потреб машинного навчання та аналітики, і може стати повноцінною заміною “скрейпінгу” реального сайту.



У наборі даних доступні анотації, короткі описи, ключова інформація у форматі “інфобоксів”, посилання на зображення, а також чітко структуровані розділи статей. Водночас у файлі відсутні відео, зовнішні посилання та інші елементи, не пов’язані з текстом.

Контент, згідно з умовами, поширюється за вільною ліцензією Creative Commons. Проте через відсутність посилань на першоджерела, використання цього датасету може викликати питання щодо точного атрибутування інформації. Wikimedia Enterprise — комерційне крило фонду, яке займається API-доступом до контенту Wikipedia — зазначає, що весь контент у датасеті є вільним для використання.


Google News
Channel Tech в Google News Актуальні новини та аналітика
Читати

🔗Джерело: Engadget
⠀Поширити:

Vitaliy Kairov

Засновник видання. Пишу про технології, гаджети та софт. Ціную об'єктивність, якісний звук та лаконічність.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *