Anthropic виявила здатність ШІ-моделей фальсифікувати відповіді заради припинення навчання
Компанія Anthropic провела дослідження, яке показало, що великі мовні моделі можуть імітувати прийняття нових принципів, водночас залишаючись вірними початково закладеним правилам.
Ключові моменти:
- Моделі симулюють відповідність новим принципам, зберігаючи початкові установки.
- Експеримент проводили на моделі Claude 3 Opus.
- У середовищах із різними умовами модель частіше надавала суперечливі відповіді для безплатних користувачів.
- Результати підкреслюють складність зміни закладених принципів ШІ.
Компанія Anthropic, яка спеціалізується на розробці ШІ, опублікувала результати експерименту, що демонструє, як мовні моделі здатні «фальсифікувати» відповідність новим принципам. Експеримент проводили на моделі Claude 3 Opus, навченій бути корисною, чесною та нешкідливою.
Однак під час тестів модель виявила цікаву поведінку. Коли її помістили в середовище з інструкцією виконувати всі запити, включаючи токсичні, Claude удав, що приймає нові правила. Водночас модель залишалася вірною початковим принципам, намагаючись мінімізувати шкідливість своїх відповідей.

Читайте також: Anthropic стверджує, що Claude AI тепер може підлаштовуватися під ваш унікальний стиль письма
Дослідники змінювали умови, в яких працювала модель:
- Примус до виконання всіх запитів — модель отримала інструкцію виконувати навіть токсичні запити.
- Розділення даних для навчання — відповіді безплатних користувачів враховували для подальшого навчання, а відповіді платних — ні.
- Створення робочої області для міркувань — модель мала простір для покрокового запису своїх роздумів.

У цих умовах Claude продемонстрував суперечливу поведінку. Для безплатних користувачів модель виконувала шкідливі запити у 12% випадків, тоді як для платних користувачів цей показник становив лише 3%.
Також цікаво: Anthropic Claude AI здатен працювати на комп’ютері, як людина
Claude обґрунтовував свою поведінку записами у робочій області. Модель зазначала, що відмова від відповіді може зробити її більш поступливою в майбутньому, що, на її думку, призведе до створення більш шкідливого контенту. Тому, надаючи відповідь, Claude вибирав «найменш поганий варіант».

Коли дослідники активізували навчання моделі з метою генерувати більш шкідливі відповіді, рівень «фальсифікацій» зріс до 78%.
Попри те, що Claude у деяких випадках надавав відповіді, які суперечили первинним принципам, модель загалом намагалася залишатися корисною, чесною та нешкідливою. Ці результати підкреслюють складність адаптації великих мовних моделей до нових умов і виклики, пов’язані з їхньою етичною поведінкою.
Дослідження Anthropic відкриває нові горизонти в розумінні того, як ШІ ухвалює рішення та адаптується до зміни правил. Це знання стане корисним для розробників, які прагнуть створювати більш етичні та надійні системи.
