EleutherAI випустила гігантський набір ліцензованих текстів для навчання ШІ
- EleutherAI оприлюднила 8-терабайтний набір ліцензованих і відкритих текстів для навчання ШІ-моделей.
- Нові моделі Comma, побудовані на цьому наборі, демонструють результати, порівнянні з конкурентами, що використовують захищені авторським правом дані.
- Організація засуджує закритість індустрії та бере курс на прозорість і відкриті джерела.
EleutherAI, незалежна дослідницька організація у сфері штучного інтелекту, оголосила про публікацію одного з найбільших наборів відкритих та ліцензованих текстів для тренування моделей ШІ. Цей новий ресурс, що отримав назву The Common Pile v0.1, став результатом майже дворічної праці у співпраці зі стартапами Poolside, Hugging Face, кількома академічними інституціями та експертами з права.
Вагомість проєкту — буквальна: обсяг даних сягнув 8 терабайтів. Саме цей набір використали для навчання двох нових моделей від EleutherAI — Comma v0.1-1T і Comma v0.1-2T. Обидві, за словами розробників, демонструють результати, що не поступаються моделям, які були навчені на неліцензованих або захищених авторським правом матеріалах.
Публікація The Common Pile v0.1 — своєрідна відповідь EleutherAI на численні судові позови в індустрії, які торкаються практики збору даних для навчання ШІ. Компанії, як-от OpenAI, все частіше потрапляють у правові суперечки через використання захищених авторським правом джерел — книг, наукових журналів та іншого контенту, — що викликає напругу у галузі.
Стелла Бідерман, виконавча директорка EleutherAI, заявила, що через судові ризики багато компаній стали менш відкритими щодо своїх підходів до навчання моделей, а це, своєю чергою, шкодить прозорості та науковому прогресу. У дописі на платформі Hugging Face вона наголосила: самі позови не змінили практики збирання даних, однак суттєво скоротили готовність компаній ділитися інформацією про свої моделі.
The Common Pile v0.1 було створено із залученням юристів і на основі відкритих та ліцензованих джерел — зокрема, понад 300 тисяч книг з вільним доступом, оцифрованих Бібліотекою Конгресу США та Internet Archive. Також у проєкті використали Whisper — відкриту модель перетворення мови в текст від OpenAI — для транскрибування аудіо.
EleutherAI заявляє, що обидві моделі Comma (обидві містять по 7 мільярдів параметрів і були натреновані лише на частині набору) демонструють результати, порівняні з першою версією Llama від Meta у задачах з кодування, аналізу зображень та математики.
Бідерман додала, що поширена думка про нібито вирішальну роль неліцензованого контенту в навчанні ШІ не відповідає дійсності. Зі зростанням кількості якісних відкритих даних, зазначила вона, можна очікувати, що моделі на базі лише публічних джерел будуть лише покращуватись.
Зрештою, запуск The Common Pile v0.1 — це ще й спроба виправити попередні кроки самої EleutherAI. Раніше вона вже випускала відкритий набір The Pile, який включав захищений авторським правом контент. Це призвело до критики й правових претензій, зокрема з боку компаній, які використовували ці дані.
Тепер же EleutherAI планує регулярно ділитися відкритими наборами у партнерстві з дослідницькими структурами та інфраструктурними платформами — і, схоже, серйозно налаштована грати за новими, прозорими правилами.
