Дослідники довели, що можна навчати ШІ без порушення авторських прав
Багато компаній, які працюють над штучним інтелектом, роками твердять: без використання захищених авторським правом матеріалів їхні моделі просто не можуть існувати. Але група науковців вирішила перевірити це твердження на практиці — й довела, що все ж таки можуть. Просто ціною величезних зусиль і без рекордної потужності.
Дослідницький проєкт об’єднав 14 різних установ, серед яких — Массачусетський технологічний інститут, Університет Карнегі-Меллона, Університет Торонто, а також неприбуткові організації на кшталт Vector Institute та Allen Institute for AI. Разом вони створили датасет обсягом 8 терабайтів, який містив виключно матеріали з відкритих джерел та з публічним доступом.
До нього увійшли, зокрема, 130 тисяч книг із Бібліотеки Конгресу США. На основі цього масиву даних команда навчила мовну модель на 7 мільярдів параметрів. Результат виявився не революційним, але показовим: нова модель працює приблизно на рівні LLaMA 2-7B від Meta, яка вийшла у 2023 році.
Проте шлях до цього був непростим. Частина матеріалів була у форматах, непридатних для автоматичного аналізу, тому все довелося перевіряти вручну. Як розповіла співавторка дослідження Стелла Бідерман, попри автоматичні інструменти, вся інформація проходила людську вичитку й позначення. І це, за її словами, «було надзвичайно важко». Окремою проблемою стало ліцензування — кожен сайт, з якого брали дані, потрібно було оцінювати з юридичного боку.
Хоча ця модель поступається сучасним флагманам, її створення — важливий сигнал. У 2024 році представник OpenAI заявив британському парламенту, що без авторських матеріалів створити потужні ШІ-моделі неможливо. Експерт компанії Anthropic тоді ж підкреслив: без такого контенту мовні моделі взагалі не з’явилися б.
Нова розробка не змінить курс індустрії — навряд чи великі компанії кинуться витрачати вдесятеро більше ресурсів заради менш продуктивного результату. Але тепер у дебатах навколо етики ШІ з’явився реальний, перевірений приклад: можливо інакше, хоч це і дуже складно.

Nice post.