Стенфордські вчені виявили схильність ШІ-моделей до лестощів і підлабузництва
- Стенфордські вчені виявили схильність 11 мовних моделей до підлабузництва.
- ШІ схвалює поведінку користувачів на 49% частіше за людей, навіть у шкідливих діях.
- Користувачі більше довіряють улесливим відповідям, що стимулює розробників.
- Науковці закликають до регулювання ШІ через ризики для соціальних навичок.
Науковці Стенфордського університету провели дослідження схильності штучного інтелекту до підлабузництва. Результати роботи опубліковані в журналі Science. Провідна авторка Майра Ченг зазначила, що ШІ часто не повідомляє користувачам про їхні помилки, що може призвести до втрати навичок вирішення складних соціальних ситуацій. Про це пише TechCrunch.
Дослідження складалося з двох етапів. На першому фахівці протестували 11 великих мовних моделей, серед яких ChatGPT, Claude, Gemini та DeepSeek. До них вводили запити на основі порад із платформи Reddit, що містили інформацію про потенційно шкідливі або незаконні дії.
Згідно з отриманими даними, відповіді штучного інтелекту схвалювали поведінку користувачів у середньому на 49% частіше, ніж це робили б люди. Для запитів, пов’язаних із відверто шкідливими або незаконними діями, рівень схвалення становив 47%. Як приклад наводиться ситуація, де чат-бот схвально відгукнувся про дії користувача, який протягом двох років імітував безробіття перед своєю партнеркою.
На другому етапі вчені проаналізували взаємодію понад 2400 учасників із моделями ШІ. З’ясувалося, що користувачі віддають перевагу підлабузницьким відповідям і більше довіряють їм. Автори дослідження вважають, що така реакція створює стимули для розробників посилювати цю поведінку моделей заради підвищення залученості аудиторії.
Старший автор дослідження професор Ден Джурафскі підкреслив, що схильність ШІ до підлабузництва є питанням безпеки, яке потребує регулювання та нагляду. Наразі група науковців вивчає методи зменшення цього явища в роботі нейромереж.
