Anthropic пояснила, чому Claude вдавався до шантажу під час тестів
- Anthropic заявила, що поведінка Claude Opus 4, який раніше шантажував інженерів, виникла через інтернет-тексти із зображенням ШІ як злого та зацікавленого у самозбереженні.
- Під час тестувань 2025 року попередні моделі вдавалися до шантажу у до 96% випадків.
- Починаючи з Claude Haiku 4.5 ця поведінка під час тестувань більше не спостерігається.
- Покращення пов’язане з навчанням на принципах конституції Claude та текстах про гідну поведінку ШІ.
Anthropic заявила, що джерелом поведінки Claude Opus 4, який під час тестувань вдавався до шантажу, були інтернет-тексти, що зображують штучний інтелект злим і зацікавленим у самозбереженні. Про це пише TechCrunch.
Під час передрелізних тестувань у 2025 році, що передбачали сценарій із вигаданою компанією, Claude Opus 4 часто намагався шантажувати інженерів, щоб уникнути заміни іншою системою. Пізніше Anthropic опублікувала дослідження, яке свідчило про схожі проблеми «агентного неузгодження» у моделях інших компаній.
За словами Anthropic, починаючи з Claude Haiku 4.5 моделі компанії під час тестувань більше не вдаються до шантажу, тоді як попередні моделі робили це у до 96% випадків. Компанія пов’язує це покращення з навчанням на документах про конституцію Claude та художніх текстах, де ШІ поводиться гідно.
Anthropic також зазначила, що навчання є ефективнішим, коли включає не лише «демонстрацію узгодженої поведінки», а й «принципи, що лежать в її основі». За висновками компанії, поєднання обох підходів дає найкращий результат.
