CriticGPT: Новий ШІ від OpenAI, що викриває помилки ChatGPT і покращує точність кодування
У четвер дослідники OpenAI представили CriticGPT — нову модель штучного інтелекту, створену для виявлення помилок у коді, який генерує ChatGPT. Ця розробка спрямована на вдосконалення процесу узгодження поведінки AI з людськими очікуваннями через підкріплювальне навчання з людським зворотним зв’язком (RLHF), яке допомагає людським рецензентам робити вихідні дані великих мовних моделей (LLM) більш точними. Про це повідомляє Ars Technica.
Роль CriticGPT в процесі рев’ю коду
Згідно з новим дослідницьким документом “LLM Critics Help Catch LLM Bugs”, OpenAI створили CriticGPT як ШІ-помічника для людських тренерів, що рецензують програмний код, згенерований ChatGPT. Critic GPT — заснований на сімействі GPT-4 LLM — аналізує код і вказує на потенційні помилки, що полегшує виявлення помилок для людей, які могли б залишитися непоміченими. Дослідники навчили модель на наборі даних з прикладами коду, в яких навмисно були вставлені помилки, щоб навчити його розпізнавати та виявляти різні програмні помилки.
Переваги CriticGPT перед людськими рецензіями
Дослідники з’ясували, що рецензії CriticGPT були переважні для анотацій у 63 відсотках випадків, коли йшлося про природні помилки LLM. Команди людей і машин з використанням нової моделі створювали більш детальні рецензії, ніж люди самостійно, зменшуючи кількість вигаданих помилок порівняно з рецензіями, створеними лише ШІ.

Процес навчання CriticGPT
Розробка CriticGPT включала навчання моделі на великій кількості введених даних з навмисно вставленими помилками. Людські тренери були запрошені змінити код, написаний ChatGPT, вводячи помилки та надаючи приклади зворотного зв’язку, наче вони виявили ці помилки. Цей процес дозволив моделі навчитися ідентифікувати та рецензувати різні типи програмних помилок.
Нові технології для покращення рецензій
Команда дослідників також створила нову техніку під назвою Force Sampling Beam Search (FSBS), яка допомагає CriticGPT писати більш детальні рецензії коду. Це дозволяє дослідникам налаштовувати, наскільки ретельно модель шукає проблеми, і контролювати, як часто вона може вигадувати неіснуючі проблеми.
Загальні можливості CriticGPT
Цікаво, що можливості CriticGPT виходять за межі простої перевірки коду. У своїх експериментах вони застосували модель до частини навчальних даних ChatGPT, які раніше були визнані безпомилковими людськими анотаторами. На диво, CriticGPT виявив помилки у 24 відсотках цих випадків, які потім підтвердили людські рецензенти. OpenAI вважає, що це демонструє потенціал моделі для узагальнення на задачі, не пов’язані з кодом, і її здатність виявляти тонкі помилки, які навіть ретельна людська перевірка могла пропустити.
Обмеження CriticGPT
Попри обнадійливі результати, як і всі моделі ШІ, CriticGPT має свої обмеження. Модель була навчена на відносно коротких відповідях ChatGPT, що може не повністю підготувати її до оцінки довших і більш складних задач, які можуть вирішувати майбутні AI системи. Крім того, хоча нова модель зменшує кількість вигаданих помилок, вона не усуває їх повністю, і людські тренери все ще можуть робити помилки в маркуванні на основі цих хибних виходів.
Дослідницька команда визнає, що Critic GPT найефективніше виявляє помилки, які можна вказати в конкретному місці коду. Однак реальні помилки в AI-відповідях часто можуть поширюватися на декілька частин відповіді, що створює виклики для майбутніх ітерацій моделі.
OpenAI планує інтегрувати моделі, подібні до CriticGPT, у свій процес маркування RLHF, надаючи своїм тренерам ШІ-допомогу. Для OpenAI це крок до розробки кращих інструментів для оцінки виходів від LLM-систем, які можуть бути складними для людської оцінки без додаткової підтримки. Проте дослідники застерігають, що навіть з інструментами на зразок CriticGPT, надзвичайно складні завдання або відповіді можуть залишатися викликом для людських оцінювачів, навіть з ШІ-допомогою.
