ШІ

EleutherAI випустила гігантський набір ліцензованих текстів для навчання ШІ

⠀Поширити:

  • EleutherAI оприлюднила 8-терабайтний набір ліцензованих і відкритих текстів для навчання ШІ-моделей.
  • Нові моделі Comma, побудовані на цьому наборі, демонструють результати, порівнянні з конкурентами, що використовують захищені авторським правом дані.
  • Організація засуджує закритість індустрії та бере курс на прозорість і відкриті джерела.

EleutherAI, незалежна дослідницька організація у сфері штучного інтелекту, оголосила про публікацію одного з найбільших наборів відкритих та ліцензованих текстів для тренування моделей ШІ. Цей новий ресурс, що отримав назву The Common Pile v0.1, став результатом майже дворічної праці у співпраці зі стартапами Poolside, Hugging Face, кількома академічними інституціями та експертами з права.

Вагомість проєкту — буквальна: обсяг даних сягнув 8 терабайтів. Саме цей набір використали для навчання двох нових моделей від EleutherAI — Comma v0.1-1T і Comma v0.1-2T. Обидві, за словами розробників, демонструють результати, що не поступаються моделям, які були навчені на неліцензованих або захищених авторським правом матеріалах.

Публікація The Common Pile v0.1 — своєрідна відповідь EleutherAI на численні судові позови в індустрії, які торкаються практики збору даних для навчання ШІ. Компанії, як-от OpenAI, все частіше потрапляють у правові суперечки через використання захищених авторським правом джерел — книг, наукових журналів та іншого контенту, — що викликає напругу у галузі.

Стелла Бідерман, виконавча директорка EleutherAI, заявила, що через судові ризики багато компаній стали менш відкритими щодо своїх підходів до навчання моделей, а це, своєю чергою, шкодить прозорості та науковому прогресу. У дописі на платформі Hugging Face вона наголосила: самі позови не змінили практики збирання даних, однак суттєво скоротили готовність компаній ділитися інформацією про свої моделі.

The Common Pile v0.1 було створено із залученням юристів і на основі відкритих та ліцензованих джерел — зокрема, понад 300 тисяч книг з вільним доступом, оцифрованих Бібліотекою Конгресу США та Internet Archive. Також у проєкті використали Whisper — відкриту модель перетворення мови в текст від OpenAI — для транскрибування аудіо.

EleutherAI заявляє, що обидві моделі Comma (обидві містять по 7 мільярдів параметрів і були натреновані лише на частині набору) демонструють результати, порівняні з першою версією Llama від Meta у задачах з кодування, аналізу зображень та математики.

Бідерман додала, що поширена думка про нібито вирішальну роль неліцензованого контенту в навчанні ШІ не відповідає дійсності. Зі зростанням кількості якісних відкритих даних, зазначила вона, можна очікувати, що моделі на базі лише публічних джерел будуть лише покращуватись.


Channel Tech в Telegram Актуальні новини та аналітика
Підписатися

Зрештою, запуск The Common Pile v0.1 — це ще й спроба виправити попередні кроки самої EleutherAI. Раніше вона вже випускала відкритий набір The Pile, який включав захищений авторським правом контент. Це призвело до критики й правових претензій, зокрема з боку компаній, які використовували ці дані.

Тепер же EleutherAI планує регулярно ділитися відкритими наборами у партнерстві з дослідницькими структурами та інфраструктурними платформами — і, схоже, серйозно налаштована грати за новими, прозорими правилами.


Channel Tech в Google News Актуальні новини та аналітика
Читати


🔗Джерело: TechCrunch
⠀Поширити:

Vitaliy Kairov

Засновник видання. Пишу про технології, гаджети та софт. Ціную об'єктивність, якісний звук та лаконічність.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *