Генеральний директор Anthropic прагне розкрити “чорну скриньку” ШІ до 2027 року
Генеральний директор Anthropic Діаріо Амодеї опублікував есе “Терміновість інтерпретованості”, у якому визнав: навіть провідні дослідники мають обмежене уявлення про те, як саме працюють сучасні ШІ-моделі. Щоб змінити ситуацію, Anthropic ставить собі амбітну мету — до 2027 року надійно виявляти більшість потенційних проблем у роботі штучного інтелекту.
Але шлях до розуміння складний. Амодеї наголошує, що хоча Anthropic досягла деяких успіхів у відстеженні процесів прийняття рішень ШІ, попереду ще багато роботи.
“Мене дуже турбує впровадження таких систем без глибшого розуміння їхньої роботи”, — зазначив він у своєму есе. — “Ці системи будуть центральними для економіки, технологій і національної безпеки, і їхня автономність настільки велика, що залишатися в невіданні щодо їхніх механізмів я вважаю неприйнятним”.
Anthropic є однією з компаній, що працюють у сфері механістичної інтерпретованості — галузі, яка намагається “відкрити” внутрішні процеси моделей штучного інтелекту. Попри стрімке покращення можливостей ШІ, дослідники досі не знають точно, як саме моделі приймають рішення.
Яскравий приклад — нещодавні моделі OpenAI, такі як o3 та o4-mini. Вони показують кращі результати в деяких завданнях, але й частіше “галюцинують”, створюючи недостовірні відповіді. Причину цього феномену OpenAI пояснити поки що не може.
“Коли генеративна модель, скажімо, підсумовує фінансовий документ, ми не знаємо, чому вона обирає саме такі слова або чому іноді припускається помилок, хоча здебільшого працює правильно”, — пояснив Амодеї.
Кріс Ола, співзасновник Anthropic, додає: ШІ-моделі “скоріше вирощуються, ніж будуються”. Інакше кажучи, дослідники знають, як покращити інтелект систем, але не зовсім розуміють чому це працює.
Амодеї застерігає: створення “країни геніїв у дата-центрі” — тобто досягнення рівня штучного загального інтелекту (AGI) — без розуміння принципів його роботи може бути надзвичайно небезпечним. Хоча раніше він припускав, що AGI може з’явитися вже у 2026-2027 роках, сьогодні визнає, що повне розуміння моделей займе набагато більше часу.
У довгостроковій перспективі Anthropic планує проводити своєрідні “МРТ” ШІ-моделей. Такі перевірки дозволять виявляти схильність моделей до брехні, маніпуляцій або інші ризики. Однак на досягнення цієї мети може піти 5-10 років.
Anthropic вже домігся певних успіхів у розшифровці механізмів роботи своїх моделей. Зокрема, компанія змогла відстежити окремі “схеми мислення”, наприклад, як модель запам’ятовує розташування міст США у відповідних штатах. Проте таких “контурів” у моделях мільйони, і досліджено лише кілька.
Крім власних досліджень, Anthropic також інвестувала у стартап, який спеціалізується на інтерпретованості. Амодеї вважає, що в майбутньому здатність пояснювати рішення ШІ може стати важливою конкурентною перевагою.
У своєму есе Амодеї закликав OpenAI, Google DeepMind та інші гравці галузі активніше інвестувати в дослідження інтерпретованості. Він також запропонував урядам встановити “м’які” регуляторні вимоги — зокрема, обов’язкове розкриття компаніями заходів безпеки й захисту.
Окремо Амодеї підтримав ідею запровадження експортного контролю на постачання чипів до Китаю, аби уникнути глобальної гонки озброєнь у сфері ШІ.
Anthropic давно виділяється серед конкурентів своєю орієнтацією на безпеку. Поки інші технологічні гіганти виступали проти законопроєкту Каліфорнії про безпеку ШІ (SB 1047), Anthropic висловила помірковану підтримку та внесла свої пропозиції до документа.
Джерело: