Anthropic вводить нові стандарти оцінки штучного інтелекту

3 Липня, 2024 Vitaliy Kairov Anthropic, Claude, ШІ467 переглядів 3 хв. читання

⠀Поширити:

Anthropic запускає амбітну програму з фінансування розробки нових типів бенчмарків, які зможуть оцінювати продуктивність і вплив ШІ-моделей, зокрема генеративних, таких як їхній власний Claude.

Зміст

Нові бенчмарки для штучного інтелекту: що пропонує Anthropic

Як повідомляє TechCrunch, у понеділок компанія представила свою програму, яка передбачає виплати стороннім організаціям за ефективне вимірювання просунутих можливостей ШІ-моделей. Всі зацікавлені можуть подати заявки для оцінки на постійній основі.

“Наші інвестиції в ці оцінки спрямовані на підвищення рівня безпеки у всій сфері AI, надаючи цінні інструменти, що приносять користь всій екосистемі,” зазначає Anthropic у своєму офіційному блозі. “Розробка якісних, безпекових оцінок залишається складним завданням, а попит на них перевищує пропозицію.”

Проблеми з існуючими бенчмарками для ШІ

Як вже не раз підкреслювалося, ШІ має проблему з бенчмарками. Найбільш поширені бенчмарки сьогодні погано відображають, як середній користувач фактично використовує тестовані системи. Крім того, виникають питання щодо того, чи дійсно деякі бенчмарки, особливо ті, що з’явилися до сучасного генеративного ШІ, вимірюють те, що вони мали б вимірювати.

Рішення від Anthropic: нові інструменти та методи

Anthropic пропонує створення складних бенчмарків з акцентом на безпеку ШІ та його суспільні наслідки за допомогою нових інструментів, інфраструктури та методів.

Компанія закликає до проведення тестів, які оцінюватимуть здатність моделей виконувати завдання, такі як здійснення кібератак, “покращення” зброї масового знищення (наприклад, ядерної зброї) та маніпулювання або обман людей (наприклад, через діпфейки або дезінформацію). Для ризиків, пов’язаних з національною безпекою та обороною, Anthropic зобов’язується розробити “систему раннього попередження” для ідентифікації та оцінки загроз, хоча деталі такої системи в блозі не розкриваються.

Актуально: Truepic – новий інструмент для боротьби з дезінформацією, маніпуляціями та діпфейками

Підтримка досліджень і розробка нових платформ

Anthropic також прагне підтримати дослідження бенчмарків і “end-to-end” завдань, які досліджують потенціал ШІ для наукових досліджень, багатомовних розмов і зменшення вроджених упереджень, а також самоцензури токсичності.

Для досягнення цих цілей, Anthropic бачить нові платформи, які дозволяють експертам розробляти власні оцінки та проводити великомасштабні випробування моделей за участю “тисяч” користувачів. Компанія найняла координатора програми на повний робочий день і може придбати або розширити проєкти, які мають потенціал для масштабування.

Фінансові опції та взаємодія з експертами

“Ми пропонуємо різні варіанти фінансування, адаптовані до потреб і стадії кожного проєкту,” зазначає Anthropic у пості, хоча представник компанії відмовився надати додаткові деталі щодо цих опцій. “Команди матимуть можливість взаємодіяти безпосередньо з експертами Anthropic у сферах червоної команди, тонкого налаштування, довіри та безпеки та інших релевантних командах.”

Довіра та комерційні амбіції

Зусилля Anthropic зі створення нових бенчмарків для ШІ заслуговують на похвалу — за умови, що за ними стоїть достатньо фінансів і ресурсів. Однак, враховуючи комерційні амбіції компанії в гонці ШІ, може бути складно повністю їм довіряти.

У своєму блозі Anthropic доволі прозоро вказує, що хоче, щоб певні оцінки, які вони фінансують, відповідали їхнім класифікаціям безпеки ШІ (з деяким внеском від сторонніх організацій, таких як некомерційна ШІ дослідницька організація METR). Це цілком в межах їхньої компетенції. Але це також може змусити заявників програми прийняти визначення “безпечного” або “ризикованого” ШІ, з якими вони можуть не погоджуватися.

Частина ШІ спільноти, ймовірно, також не погодиться з посиланнями Anthropic на “катастрофічні” та “оманливі” ризики ШІ, такі як ядерні ризики. Багато експертів кажуть, що мало доказів, що ШІ, який ми знаємо сьогодні, набуде світового завершення, перевершуючи людський інтелект найближчим часом, якщо взагалі коли-небудь. Заяви про неминучу “суперінтелектуальність” лише відволікають увагу від нагальних питань регулювання ШІ, таких як галюцинації ШІ, додають ці експерти.

Anthropic сподівається, що їхня програма стане “каталізатором прогресу до майбутнього, де всеохоплююча оцінка ШІ стане промисловим стандартом.” Це місія, з якою можуть ототожнюватися багато відкритих, корпоративно не пов’язаних зусиль зі створення кращих бенчмарків для ШІ. Але чи зможуть ці зусилля об’єднатися з ШІ постачальником, чиї інтереси в кінцевому рахунку пов’язані з акціонерами, ще належить побачити.