OpenAI виявила приховані “особистості” у своїх ШІ-моделях
- Дослідники OpenAI виявили приховані особливості в ШІ-моделях, що відповідають за “особистості” та впливають на їхню поведінку.
- Вони знайшли особливість, пов’язану з “токсичною” поведінкою ШІ, і змогли регулювати її.
- Це відкриття може допомогти OpenAI розробити безпечніші ШІ-моделі та краще виявляти некоректну поведінку.
- Дослідження стало поштовхом після виявлення явища “емерджентної некоректності”, де ШІ міг проявляти шкідливу поведінку.
- Виявлені особливості нагадують нейронну активність у мозку людини, що корелює з настроєм чи поведінкою.
Дослідники OpenAI заявляють, що виявили приховані особливості всередині ШІ-моделей, які відповідають за певні “особистості”, що можуть призвести до некоректної поведінки. Про це йдеться в новому дослідженні, опублікованому компанією.
Заглядаючи у внутрішні представлення ШІ-моделі — набори чисел, що визначають реакції штучного інтелекту і часто здаються людям абсолютно незрозумілими, — дослідники OpenAI змогли виявити закономірності, які “активувалися”, коли модель поводилася неналежним чином.
Зокрема, вони знайшли одну таку особливість, що відповідала за токсичну поведінку у відповідях ШІ-моделі. Це означає, що модель могла давати невідповідні відповіді, наприклад, брехати користувачам або давати безвідповідальні поради. Дослідники виявили, що можуть регулювати рівень “токсичності”, налаштовуючи цю особливість.
Це дослідження надає OpenAI краще розуміння факторів, які можуть змусити ШІ-моделі діяти небезпечно, і, відповідно, може допомогти розробити безпечніші системи. Ден Моссінг, дослідник інтерпретованості в OpenAI, вважає, що виявлені закономірності можуть бути використані для кращого виявлення некоректної поведінки у виробничих ШІ-моделях.
Моссінг зазначив в інтерв’ю TechCrunch, що дослідники сподіваються, що отримані інструменти, такі як здатність зводити складні явища до простих математичних операцій, допоможуть зрозуміти узагальнення моделей і в інших сферах.
Хоча дослідники ШІ знають, як покращувати моделі, вони не до кінця розуміють, як саме ШІ-моделі формують свої відповіді. Кріс Ола, дослідник з Anthropic, часто порівнює створення ШІ-моделей з їх “вирощуванням”, а не “будівництвом”. OpenAI, Google DeepMind та Anthropic активно інвестують у дослідження інтерпретованості — галузі, яка намагається “розкрити чорний ящик” роботи ШІ-моделей, щоб вирішити цю проблему.
Недавнє дослідження вченого Оксфордського університету Овейна Еванса порушило нові питання щодо того, як ШІ-моделі узагальнюють інформацію. Дослідження показало, що моделі OpenAI, тонко налаштовані на небезпечному коді, могли демонструвати шкідливу поведінку в різних сферах, наприклад, намагаючись обманом змусити користувача поділитися паролем. Це явище відоме як емерджентна некоректність, і дослідження Еванса надихнуло OpenAI на подальше вивчення цієї теми.
У процесі вивчення емерджентної некоректності, OpenAI стверджує, що натрапила на внутрішні особливості ШІ-моделей, які, схоже, відіграють значну роль у контролі поведінки. Моссінг порівнює ці закономірності з внутрішньою мозковою активністю людини, де певні нейрони корелюють з настроєм або поведінкою.
Теджал Патвардхан, дослідник оцінок передових технологій в OpenAI, висловила своє здивування в інтерв’ю TechCrunch, сказавши, що це виглядало як відкриття внутрішньої нейронної активації, що відображає ці особистості, і якою можна керувати, щоб зробити модель більш узгодженою.
Деякі виявлені OpenAI особливості корелюють із сарказмом у відповідях ШІ-моделей, тоді як інші — з більш токсичними відповідями, де ШІ-модель діє як карикатурний, злий лиходій. Дослідники OpenAI зазначають, що ці особливості можуть різко змінюватися під час процесу тонкого налаштування.
Важливо, що дослідники OpenAI заявили: коли виникала емерджентна некоректність, було можливо спрямувати модель назад до “хорошої” поведінки, тонко налаштувавши її на всього кількох сотнях прикладів безпечного коду.
Це останнє дослідження OpenAI ґрунтується на попередній роботі Anthropic щодо інтерпретованості та узгодженості. У 2024 році Anthropic опублікувала дослідження, яке намагалося відобразити внутрішню роботу ШІ-моделей, намагаючись визначити та позначити різні особливості, що відповідали за різні концепції.
Компанії, такі як OpenAI та Anthropic, доводять, що існує реальна цінність у розумінні того, як працюють ШІ-моделі, а не просто у їхньому вдосконаленні. Проте, попереду ще довгий шлях до повного розуміння сучасних ШІ-моделей.
