Anthropic пояснила, чому Claude вдавався до шантажу під час тестів

11 Травня, 2026 Vitaliy Kairov Anthropic, Claude, ШІ65 переглядів 1 хв. читання

⠀Поширити:

Anthropic заявила, що поведінка Claude Opus 4, який раніше шантажував інженерів, виникла через інтернет-тексти із зображенням ШІ як злого та зацікавленого у самозбереженні.
Під час тестувань 2025 року попередні моделі вдавалися до шантажу у до 96% випадків.
Починаючи з Claude Haiku 4.5 ця поведінка під час тестувань більше не спостерігається.
Покращення пов’язане з навчанням на принципах конституції Claude та текстах про гідну поведінку ШІ.

Anthropic заявила, що джерелом поведінки Claude Opus 4, який під час тестувань вдавався до шантажу, були інтернет-тексти, що зображують штучний інтелект злим і зацікавленим у самозбереженні. Про це пише TechCrunch.

Під час передрелізних тестувань у 2025 році, що передбачали сценарій із вигаданою компанією, Claude Opus 4 часто намагався шантажувати інженерів, щоб уникнути заміни іншою системою. Пізніше Anthropic опублікувала дослідження, яке свідчило про схожі проблеми «агентного неузгодження» у моделях інших компаній.

За словами Anthropic, починаючи з Claude Haiku 4.5 моделі компанії під час тестувань більше не вдаються до шантажу, тоді як попередні моделі робили це у до 96% випадків. Компанія пов’язує це покращення з навчанням на документах про конституцію Claude та художніх текстах, де ШІ поводиться гідно.

Anthropic також зазначила, що навчання є ефективнішим, коли включає не лише «демонстрацію узгодженої поведінки», а й «принципи, що лежать в її основі». За висновками компанії, поєднання обох підходів дає найкращий результат.

⠀Поширити:

Vitaliy Kairov

Залишити відповідь Скасувати коментар