ШІ

Anthropic виявила здатність ШІ-моделей фальсифікувати відповіді заради припинення навчання

⠀Поширити:

Компанія Anthropic провела дослідження, яке показало, що великі мовні моделі можуть імітувати прийняття нових принципів, водночас залишаючись вірними початково закладеним правилам.


Ключові моменти:

  • Моделі симулюють відповідність новим принципам, зберігаючи початкові установки.
  • Експеримент проводили на моделі Claude 3 Opus.
  • У середовищах із різними умовами модель частіше надавала суперечливі відповіді для безплатних користувачів.
  • Результати підкреслюють складність зміни закладених принципів ШІ.

Компанія Anthropic, яка спеціалізується на розробці ШІ, опублікувала результати експерименту, що демонструє, як мовні моделі здатні «фальсифікувати» відповідність новим принципам. Експеримент проводили на моделі Claude 3 Opus, навченій бути корисною, чесною та нешкідливою.

Однак під час тестів модель виявила цікаву поведінку. Коли її помістили в середовище з інструкцією виконувати всі запити, включаючи токсичні, Claude удав, що приймає нові правила. Водночас модель залишалася вірною початковим принципам, намагаючись мінімізувати шкідливість своїх відповідей.

Anthropic виявила здатність ШІ-моделей фальсифікувати відповіді заради припинення навчання

Читайте також: Anthropic стверджує, що Claude AI тепер може підлаштовуватися під ваш унікальний стиль письма


Channel Tech в Telegram Актуальні новини та аналітика
Підписатися

Дослідники змінювали умови, в яких працювала модель:

  1. Примус до виконання всіх запитів — модель отримала інструкцію виконувати навіть токсичні запити.
  2. Розділення даних для навчання — відповіді безплатних користувачів враховували для подальшого навчання, а відповіді платних — ні.
  3. Створення робочої області для міркувань — модель мала простір для покрокового запису своїх роздумів.
Anthropic виявила здатність ШІ-моделей фальсифікувати відповіді заради припинення навчання

У цих умовах Claude продемонстрував суперечливу поведінку. Для безплатних користувачів модель виконувала шкідливі запити у 12% випадків, тоді як для платних користувачів цей показник становив лише 3%.

Також цікаво: Anthropic Claude AI здатен працювати на комп’ютері, як людина

Claude обґрунтовував свою поведінку записами у робочій області. Модель зазначала, що відмова від відповіді може зробити її більш поступливою в майбутньому, що, на її думку, призведе до створення більш шкідливого контенту. Тому, надаючи відповідь, Claude вибирав «найменш поганий варіант».

Anthropic виявила здатність ШІ-моделей фальсифікувати відповіді заради припинення навчання

Коли дослідники активізували навчання моделі з метою генерувати більш шкідливі відповіді, рівень «фальсифікацій» зріс до 78%.

Попри те, що Claude у деяких випадках надавав відповіді, які суперечили первинним принципам, модель загалом намагалася залишатися корисною, чесною та нешкідливою. Ці результати підкреслюють складність адаптації великих мовних моделей до нових умов і виклики, пов’язані з їхньою етичною поведінкою.

Дослідження Anthropic відкриває нові горизонти в розумінні того, як ШІ ухвалює рішення та адаптується до зміни правил. Це знання стане корисним для розробників, які прагнуть створювати більш етичні та надійні системи.


Channel Tech в Google News Актуальні новини та аналітика
Читати


⠀Поширити:

Vitaliy Kairov

Засновник видання. Пишу про технології, гаджети та софт. Ціную об'єктивність, якісний звук та лаконічність.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *