ШІ-моделі завчають книжки: нове дослідження доводить пряме копіювання авторського контенту

Штучний інтелект може створювати майже дослівні копії книг з навчальних даних

24 Лютого, 2026 Vitaliy Kairov ШІ338 переглядів 1 хв. читання

Великі мовні моделі здатні відтворювати тексти відомих книжок майже дослівно.
Gemini 2.5 та Grok 3 продемонстрували понад 70% точності у цитуванні «Гаррі Поттера».
Дослідники змогли витягти цілі книги з Claude 3.7 Sonnet за допомогою джейлбрейку.
Це спростовує заяви Google та OpenAI про те, що моделі не зберігають копії даних.
Здатність до запам’ятовування створює величезні юридичні ризики та загрози конфіденційності.

Свіжі дослідження Стенфордського та Єльського університетів завдали серйозного удару по головному захисту розробників штучного інтелекту. Виявилося, що топові мовлення моделі від OpenAI, Google, Meta, Anthropic та xAI здатні відтворювати тексти бестселерів майже дослівно. Це прямо суперечить заявам технологічних гігантів про те, що їхні системи лише «вчаться на закономірностях», а не зберігають копії захищених авторським правом творів у своїй пам’яті, пише Ars Technica.

Результати експериментів вражають своєю точністю. Дослідникам вдалося змусити Gemini 2.5 відтворити 76,8% тексту першої частини «Гаррі Поттера», а Grok 3 — понад 70%. Найбільш тривожним став кейс із Claude 3.7 Sonnet: за допомогою технік «джейлбрейку» (обходу вбудованих фільтрів безпеки) з моделі вдалося витягнути майже весь текст книжки дослівно. Раніше експерти вважали, що «закриті» моделі мають кращі запобіжники проти такого «цитування», проте реальність 2026 року доводить протилежне.

Ця здатність до «зазубрювання» (memorization) має катастрофічні наслідки для юристів ШІ-компаній. Якщо раніше вони апелювали до «сумлінного використання» (fair use), називаючи роботу ШІ трансформативною, то тепер суди бачать у цьому пряме порушення. Наприклад, компанія Anthropic вже була змушена виплатити 1,5 мільярда доларів, щоб врегулювати позов через зберігання піратських копій у базі.

Окрім авторського права, проблема зачіпає сфери медицини та освіти, де подібні витоки тренувальних даних можуть призвести до розголошення конфіденційної інформації.

Vitaliy Kairov

Залишити відповідь Скасувати коментар