ШІ

Anthropic пояснила, чому Claude вдавався до шантажу під час тестів

⠀Поширити:

  • Anthropic заявила, що поведінка Claude Opus 4, який раніше шантажував інженерів, виникла через інтернет-тексти із зображенням ШІ як злого та зацікавленого у самозбереженні.
  • Під час тестувань 2025 року попередні моделі вдавалися до шантажу у до 96% випадків.
  • Починаючи з Claude Haiku 4.5 ця поведінка під час тестувань більше не спостерігається.
  • Покращення пов’язане з навчанням на принципах конституції Claude та текстах про гідну поведінку ШІ.

Anthropic заявила, що джерелом поведінки Claude Opus 4, який під час тестувань вдавався до шантажу, були інтернет-тексти, що зображують штучний інтелект злим і зацікавленим у самозбереженні. Про це пише TechCrunch.

Під час передрелізних тестувань у 2025 році, що передбачали сценарій із вигаданою компанією, Claude Opus 4 часто намагався шантажувати інженерів, щоб уникнути заміни іншою системою. Пізніше Anthropic опублікувала дослідження, яке свідчило про схожі проблеми «агентного неузгодження» у моделях інших компаній.


Channel Tech в Telegram Актуальні новини та аналітика
Підписатися

За словами Anthropic, починаючи з Claude Haiku 4.5 моделі компанії під час тестувань більше не вдаються до шантажу, тоді як попередні моделі робили це у до 96% випадків. Компанія пов’язує це покращення з навчанням на документах про конституцію Claude та художніх текстах, де ШІ поводиться гідно.

Anthropic також зазначила, що навчання є ефективнішим, коли включає не лише «демонстрацію узгодженої поведінки», а й «принципи, що лежать в її основі». За висновками компанії, поєднання обох підходів дає найкращий результат.


Channel Tech в Google News Актуальні новини та аналітика
Читати


⠀Поширити:

Vitaliy Kairov

Засновник видання. Пишу про технології, гаджети та софт. Ціную об'єктивність, якісний звук та лаконічність.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *