MIT спростував гучний міф: штучний інтелект не має жодних цінностей
Нове дослідження MIT розвінчало популярну думку про те, що ШІ формує власні цінності. Науковці показали, що моделі нестабільні, суперечливі та не мають послідовних переконань — вони лише імітують людські відповіді залежно від запиту.
Команда дослідників із Масачусетського технологічного інституту (MIT) поставила крапку в дискусії, яка кілька місяців тому захопила соцмережі та ЗМІ: штучний інтелект не формує власних цінностей. Хоча попередні роботи натякали на те, що мовні моделі можуть “дбати про себе” чи “висловлювати думки”, нове дослідження показало прямо протилежне.
Автори дослідження вивчили роботу кількох сучасних моделей, зокрема від OpenAI, Google, Meta, Mistral та Anthropic. Їхнє завдання: перевірити, наскільки послідовно моделі демонструють уявні переконання — наприклад, індивідуалістичні чи колективістські погляди.
Результат виявився однозначним: моделі змінювали свої “погляди” залежно від формулювання запитів. Один і той самий запит, сформульований по-різному, викликав діаметрально протилежні відповіді.
Найважливіше, що ми винесли з цього дослідження — це розуміння, що ШІ-моделі не мають жодних стабільних переконань, — зазначив співавтор дослідження, аспірант MIT Стівен Каспер.
Дослідники наголошують: нейромережі не мають внутрішніх переконань, а лише видають схожі на людські відповіді, які, до того ж, можуть бути суперечливими. Саме тому так звана “узгодженість ШІ” (alignment) — тобто здатність моделі діяти надійно і передбачувано — виявляється набагато складнішою задачею, ніж вважалося раніше.
Каспер застерігає: неможливо робити глобальні висновки про переконання моделей на основі вузьких експериментів. Те, що іноді здається “думкою ШІ”, насправді — просто випадкова імітація патернів у даних.
Схожу думку висловив і дослідник штучного інтелекту з King’s College London Майк Кук, який не був залучений до проєкту. Він наголосив, що приписування ШІ людських рис — це або наївність, або спроба привернути увагу.
ШІ не може “опиратися зміні своїх цінностей”, — пояснив Кук. — Це ми проєктуємо свої уявлення на бездушну систему.
