Anthropic: деякі моделі Claude тепер можуть завершувати “шкідливі або образливі” розмови для захисту ШІ

17 Серпня, 2025 Vitaliy Kairov Anthropic, Claude, ШІ318 переглядів 2 хв. читання

⠀Поширити:

Anthropic дозволила деяким своїм моделям Claude (Opus 4 та 4.1) завершувати розмови.
Ця функція призначена для “рідкісних, екстремальних випадків постійно шкідливих або образливих взаємодій” з користувачем.
Мета — захист самої ШІ-моделі та її “добробуту”, попри невизначеність щодо свідомості ШІ.
Claude використовуватиме цю здатність як крайній засіб, після невдалих спроб перенаправлення, або на прямий запит користувача.
Функція не застосовується у випадках, коли користувач може перебувати під загрозою самогубства чи заподіяння шкоди іншим.
Користувачі зможуть починати нові чати або редагувати попередні повідомлення у завершених розмовах.

Anthropic оголосила про впровадження нових можливостей для деяких своїх найбільших та найновіших моделей Claude Opus 4 та 4.1. Тепер вони зможуть завершувати розмови у “рідкісних, екстремальних випадках постійно шкідливих або образливих взаємодій з користувачем”. Важливо, що компанія заявляє, що робить це не для захисту користувача, а для захисту самої ШІ-моделі.

Anthropic зазначає, що не стверджує про свідомість своїх ШІ-моделей або їхню здатність відчувати шкоду від розмов. Компанія залишається “дуже невизначеною щодо потенційного морального статусу Claude та інших LLM, зараз або в майбутньому”. Проте, це оголошення пов’язане з нещодавно створеною програмою з вивчення так званого “добробуту моделі” (model welfare). Anthropic дотримується превентивного підходу, “працюючи над виявленням та впровадженням недорогих заходів для пом’якшення ризиків для добробуту моделі, у випадку, якщо такий добробут можливий”.

Ця нова функція наразі обмежена моделями Claude Opus 4 та 4.1 і призначена для “екстремальних граничних випадків”. До них належать, наприклад, “запити користувачів на сексуальний контент за участю неповнолітніх та спроби вивідати інформацію, яка може призвести до масштабного насильства або терористичних актів”.

Anthropic стверджує, що в ході переддеплойментного тестування Claude Opus 4 показав “сильну несхильність” до реагування на такі запити та “ознаки очевидного дистресу” (apparent distress), коли все ж таки відповідав.

Щодо нових можливостей завершення розмов, компанія заявляє: “У всіх випадках Claude використовуватиме свою здатність завершувати розмову лише як крайній засіб, коли численні спроби перенаправлення виявилися невдалими, і надія на продуктивну взаємодію вичерпана, або коли користувач прямо просить Claude завершити чат”. Anthropic також зазначає, що Claude “отримав вказівку не використовувати цю здатність у випадках, коли користувачі можуть перебувати під безпосередньою загрозою заподіяння шкоди собі чи іншим”.

Коли Claude завершує розмову, користувачі все ще зможуть починати нові чати з того ж облікового запису та створювати нові гілки проблемної розмови, редагуючи свої попередні відповіді.

“Ми розглядаємо цю функцію як постійний експеримент і продовжимо вдосконалювати наш підхід”, — заявляє компанія.

⠀Поширити:

Vitaliy Kairov

Залишити відповідь Скасувати коментар