Кібердослідники критикують жорсткі обмеження в моделі Anthropic Fable
- Anthropic представила Fable як публічну, обмежену версію моделі Mythos з посиленими запобіжниками для ризикових сценаріїв.
- Кіберфахівці скаржаться, що Fable блокує майже всі кіберзапити, включно з безпечними задачами, і часто «відкочується» до Claude Opus 4.8.
- Для професійного використання Anthropic пропонує програму Cyber Verification Program, а OpenAI має схожий підхід через Trusted Access for Cyber.
Anthropic у вівторок представила модель Fable як публічну, обмежену версію свого гучного кібербезпекового флагмана Mythos. Вона мала дати ширшому колу користувачів доступ до можливостей моделі з додатковими запобіжниками щодо ризикових сценаріїв. Втім, частина спільноти кібербезпеки різко розкритикувала нові обмеження, повідомляє TechCrunch.
Дослідники та практики скаржаться, що Fable відхиляє практично будь-які запити, які хоч якось пов’язані з кібертемами, включно з безпечними завданнями на кшталт читання блогу чи запиту на код-ревʼю. За словами відомої дослідниці Валентини «Chompie» Палміотті з IBM X-Force, модель відмовляється навіть від «невинних» кіберзапитів.
Коли спрацьовують запобіжники, Fable зупиняє діалог і повідомляє, що «системи безпеки позначили це повідомлення як пов’язане з кібербезпекою або біологією». Ці обмеження Anthropic запровадила, щоб зменшити ризик використання моделі для розробки шкідливого ПЗ або компрометації програм, а біологічні фільтри — щоб унеможливити допомогу у створенні біологічної зброї.
Ще у квітні Anthropic випустила Mythos у вузькому колі компаній та організацій у межах ініціативи Project Glasswing — програми розгортання моделі для захисту критичного ПЗ та інфраструктури. Минулого тижня компанія розширила доступ до Mythos до сотень організацій у 15 країнах, однак публічна Fable отримала набагато жорсткіші обмеження.
Досвідчені фахівці називають ці обмеження надто грубими. Кіберветеран Метт Суїш розповів, що навіть прохання «написати безпечний код» модель іноді трактує як суто кібербезпекове завдання, а не як практику безпечної розробки, після чого користувач отримує «занижену» відповідь. Якщо Fable натрапляє на guardrail, вона автоматично «відкочується» до Claude Opus 4.8, причому, за його словами, тригери часто виглядають як простий пошук ключових слів з поля «кібербезпека».
Водночас Суїш зазначає, що така поведінка частково зрозуміла для раннього етапу запуску: за його оцінкою, Anthropic і інші розробники потужних моделей з часом адаптують запобіжники у співпраці з кіберкомпаніями, поступово послаблюючи обмеження після початкового «надмірного» відсікання ризикових сценаріїв. Інший дослідник скаржиться, що навіть запит на перевірку коду може активувати захисні механізми Fable.
Anthropic на момент публікації не відповіла на запит щодо коментаря. Окрім вбудованих обмежень у моделях, компанія вимагає від кіберфахівців проходження програми Cyber Verification Program: схвалені учасники отримують менше обмежень при використанні Claude для кібербезпекових задач. Подібний підхід застосовує й OpenAI через програму Trusted Access for Cyber, яка також відкриває розширений доступ до кіберфункцій для перевірених користувачів.

