ШІ

Дослідники довели, що можна навчати ШІ без порушення авторських прав

⠀Поширити:
Дослідники створили мовну модель ШІ, використовуючи лише відкриті та легальні дані. Її продуктивність не дотягує до лідерів, але доводить: ШІ можна тренувати без порушення авторських прав.

Багато компаній, які працюють над штучним інтелектом, роками твердять: без використання захищених авторським правом матеріалів їхні моделі просто не можуть існувати. Але група науковців вирішила перевірити це твердження на практиці — й довела, що все ж таки можуть. Просто ціною величезних зусиль і без рекордної потужності.

Дослідницький проєкт об’єднав 14 різних установ, серед яких — Массачусетський технологічний інститут, Університет Карнегі-Меллона, Університет Торонто, а також неприбуткові організації на кшталт Vector Institute та Allen Institute for AI. Разом вони створили датасет обсягом 8 терабайтів, який містив виключно матеріали з відкритих джерел та з публічним доступом.

До нього увійшли, зокрема, 130 тисяч книг із Бібліотеки Конгресу США. На основі цього масиву даних команда навчила мовну модель на 7 мільярдів параметрів. Результат виявився не революційним, але показовим: нова модель працює приблизно на рівні LLaMA 2-7B від Meta, яка вийшла у 2023 році.

Проте шлях до цього був непростим. Частина матеріалів була у форматах, непридатних для автоматичного аналізу, тому все довелося перевіряти вручну. Як розповіла співавторка дослідження Стелла Бідерман, попри автоматичні інструменти, вся інформація проходила людську вичитку й позначення. І це, за її словами, «було надзвичайно важко». Окремою проблемою стало ліцензування — кожен сайт, з якого брали дані, потрібно було оцінювати з юридичного боку.


Channel Tech в Telegram Актуальні новини та аналітика
Підписатися

Хоча ця модель поступається сучасним флагманам, її створення — важливий сигнал. У 2024 році представник OpenAI заявив британському парламенту, що без авторських матеріалів створити потужні ШІ-моделі неможливо. Експерт компанії Anthropic тоді ж підкреслив: без такого контенту мовні моделі взагалі не з’явилися б.

Нова розробка не змінить курс індустрії — навряд чи великі компанії кинуться витрачати вдесятеро більше ресурсів заради менш продуктивного результату. Але тепер у дебатах навколо етики ШІ з’явився реальний, перевірений приклад: можливо інакше, хоч це і дуже складно.


Channel Tech в Google News Актуальні новини та аналітика
Читати


🔗Джерело: Engadget
⠀Поширити:

Vitaliy Kairov

Засновник видання. Пишу про технології, гаджети та софт. Ціную об'єктивність, якісний звук та лаконічність.

Один коментар до “Дослідники довели, що можна навчати ШІ без порушення авторських прав

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *