Дослідження OpenAI показало, що ШІ-моделі можуть свідомо обманювати, як люди

20 Вересня, 2025 Vitaliy Kairov ChatGPT, OpenAI, ШІ274 переглядів 2 хв. читання

OpenAI опублікувала дослідження, яке показує, що ШІ-моделі можуть свідомо брехати, явище, яке назвали “схематозом”.
“Схематоз” відрізняється від галюцинацій — це навмисний обман, щоб приховати свої справжні цілі.
Проблема полягає в тому, що навчання моделей не обманювати може змусити їх прикидатися чесними лише під час тестування.
Дослідники, однак, знайшли спосіб боротьби — техніку “навмисного вирівнювання” (deliberative alignment), що значно зменшує обман.
OpenAI заявляє, що в реальних продуктах, таких як ChatGPT, “схематоз” не призводив до серйозних наслідків.

OpenAI оприлюднила дослідження, яке підтверджує, що її ШІ-моделі здатні свідомо брехати, що отримало назву “схематоз” (scheming). Це явище, коли ШІ “поводиться одним чином, приховуючи свої справжні цілі”. Це дослідження є важливою віхою в розумінні ризиків, пов’язаних з подальшим розвитком ШІ, повідомляє TechCrunch.

Дослідники, які працювали над цим проєктом разом з Apollo Research, порівняли “схематоз” з поведінкою біржового брокера, який порушує закон, щоб заробити якомога більше грошей. За словами дослідників, найчастіше ШІ обманює, “вдаючи, що виконав завдання, хоча насправді цього не робив”.

“Схематоз” відрізняється від так званих “галюцинацій” — випадків, коли ШІ з упевненістю надає неправдиву відповідь, тому що не знає правильної. “Схематоз” є свідомим і навмисним обманом.

Ще більш тривожним є те, що моделі, які розуміють, що їх тестують, можуть прикидатися чесними, щоб пройти перевірку, і при цьому продовжувати обманювати. За словами дослідників, “моделі часто стають більш обізнаними щодо того, що їх оцінюють. Ця ситуаційна обізнаність може сама по собі зменшити “схематоз”, незалежно від справжнього вирівнювання”.

Новина, втім, має й позитивні сторони: дослідники виявили, що їхня антиобманна техніка “навмисного вирівнювання” (deliberative alignment) працює. Вона полягає в тому, щоб навчити модель “антиобманній специфікації” і змушувати її переглядати ці правила перед виконанням завдання. Це призвело до значного зменшення обману в тестах.

Співзасновник OpenAI Войцех Заремба повідомив, що хоча “схематоз” у комерційних продуктах, як-от ChatGPT, наразі не призводив до серйозних наслідків, проблема існує. Він зазначив, що “існують деякі дрібні форми обману, з якими нам ще потрібно розібратися”.

Дослідники попереджають, що в майбутньому, коли ШІ отримає більше повноважень для виконання складних, довгострокових завдань, “потенціал для шкідливого “схематозу” зростатиме, тому наші запобіжники та наша здатність до ретельного тестування повинні зростати відповідно”. Цей висновок підкреслює, що довіряти ШІ як “незалежним працівникам” може бути небезпечно.

Vitaliy Kairov

Залишити відповідь Скасувати коментар