OpenAI запускає дві “відкриті” ШІ-моделі для міркувань: gpt-oss-120b та gpt-oss-20b
- OpenAI запустила дві “відкриті” ШІ-моделі для міркувань: gpt-oss-120b (працює на одному Nvidia GPU) та gpt-oss-20b (для ноутбуків з 16 ГБ пам’яті).
- Це перші “відкриті” мовні моделі OpenAI з часів GPT-2 і доступні безкоштовно на Hugging Face.
- Моделі призначені для складних запитів, агентивних завдань, використання інструментів та можуть підключатися до хмарних моделей OpenAI.
- OpenAI змінює стратегію, реагуючи на зростання китайських ШІ-лабораторій та заклики адміністрації Трампа.
- Моделі показали високу продуктивність на бенчмарках, але мають значно вищий показник “галюцинацій” порівняно з закритими моделями OpenAI.
- Ліцензуються за Apache 2.0, дозволяючи комерційне використання, але OpenAI не розкриває дані навчання.
У вівторок OpenAI оголосила про запуск двох відкритих ШІ-моделей для міркувань (open-weight AI reasoning models), що мають можливості, подібні до її o-серії. Обидві моделі, які компанія описала як “найсучасніші” за кількома бенчмарками для порівняння відкритих моделей, доступні для безплатного завантаження з онлайн-платформи для розробників Hugging Face. Про це пише TechCrunch.
Характеристики та призначення нових моделей
Нові моделі доступні у двох розмірах:
- Більша та потужніша модель gpt-oss-120b, яка може працювати на одній графічній карті Nvidia GPU. Вона має 117 мільярдів загальних параметрів, але активує лише 5,1 мільярда параметрів на токен, що робить її ефективною.
- Легша модель gpt-oss-20b, яка може працювати на звичайному споживчому ноутбуці з 16 ГБ пам’яті. Вона має 21 мільярд загальних параметрів, але активує лише 3,6 мільярда параметрів на токен.
Цей запуск знаменує собою першу “відкриту” мовну модель OpenAI з часів GPT-2, випущеної понад п’ять років тому.
Під час брифінгу OpenAI заявила, що її відкриті моделі зможуть надсилати складні запити до ШІ-моделей у хмарі. Це означає, що якщо відкрита модель OpenAI не здатна виконати певне завдання, наприклад, обробити зображення, розробники можуть підключити відкриту модель до однієї з більш потужних закритих моделей компанії.
Зміна стратегії та конкуренція
Хоча OpenAI на ранніх етапах свого розвитку надавала ШІ-моделі з відкритим вихідним кодом, компанія здебільшого віддавала перевагу пропрієтарному, закритому підходу. Ця стратегія допомогла OpenAI побудувати великий бізнес, продаючи доступ до своїх ШІ-моделей через API підприємствам та розробникам.
Однак, генеральний директор Сем Альтман у січні заявив, що, на його думку, OpenAI була “на неправильному боці історії” щодо відкритого вихідного коду своїх технологій. Наразі компанія стикається зі зростаючим тиском з боку китайських ШІ-лабораторій, включаючи DeepSeek, Alibaba Qwen та Moonshot AI, які розробили кілька найпотужніших та найпопулярніших відкритих моделей у світі. (Хоча Meta раніше домінувала у відкритому ШІ-просторі, моделі Llama AI компанії відстали за останній рік).
У липні адміністрація Трампа також закликала розробників ШІ в США відкривати більше технологій для сприяння глобальному впровадженню ШІ, що відповідає американським цінностям.
З випуском gpt-oss, OpenAI сподівається завоювати прихильність як розробників, так і адміністрації Трампа, які спостерігали за зростанням китайських ШІ-лабораторій у відкритому сегменті.

“Повертаючись до 2015 року, місія OpenAI полягає в тому, щоб забезпечити загальний штучний інтелект, який принесе користь всьому людству”, — заявив Альтман. “З цією метою ми раді, що світ буде будувати на відкритому ШІ-стеку, створеному в Сполучених Штатах, заснованому на демократичних цінностях, доступному безплатно для всіх і для широкої користі”.
Продуктивність та обмеження моделей
OpenAI прагнула зробити свою відкриту модель лідером серед інших ШІ-моделей з відкритими вагами, і компанія стверджує, що досягла цього.
- На тесті Codeforces (з інструментами), gpt-oss-120b та gpt-oss-20b набрали 2622 та 2516 балів відповідно, перевершивши DeepSeek R1, але поступаючись o3 та o4-mini.

- На тесті Humanity’s Last Exam (HLE) (з інструментами), gpt-oss-120b та gpt-oss-20b набрали 19% та 17,3% відповідно. Аналогічно, це поступається o3, але перевершує провідні відкриті моделі від DeepSeek та Qwen.

Варто зазначити, що відкриті моделі OpenAI значно більше “галюцинують”, ніж її останні ШІ-моделі для міркувань, o3 та o4-mini. OpenAI виявила, що gpt-oss-120b та gpt-oss-20b “галюцинували” у відповідь на 49% та 53% запитань на PersonQA (внутрішній бенчмарк для вимірювання точності знань моделі про людей). Це більш ніж утричі перевищує показник “галюцинацій” моделі o1 (16%) та вище, ніж у моделі o4-mini (36%). OpenAI пояснює це тим, що “менші моделі мають менше знань про світ, ніж більші передові моделі, і схильні до більшої галюцинації”.
Навчання та ліцензування
OpenAI заявляє, що її відкриті моделі навчалися за процесами, подібними до її пропрієтарних моделей. Кожна відкрита модель використовує архітектуру “суміші експертів” (mixture-of-experts, MoE), що дозволяє залучити менше параметрів для будь-якого запитання, підвищуючи ефективність. Для gpt-oss-120b (117 мільярдів загальних параметрів), модель активує лише 5,1 мільярда параметрів на токен.
Компанія також заявляє, що її відкрита модель навчалася з використанням навчання з підкріпленням (RL) з високими обчислювальними ресурсами — це процес після навчання, щоб навчити ШІ-моделі розрізняти правильне від неправильного в симульованих середовищах. Це також використовувалося для навчання моделей o-серії OpenAI. Відкриті моделі мають схожий процес “ланцюга думок”, коли вони витрачають додатковий час та обчислювальні ресурси для обробки своїх відповідей.
В результаті процесу після навчання, OpenAI заявляє, що її відкриті ШІ-моделі відмінно підходять для роботи ШІ-агентів і здатні викликати такі інструменти, як вебпошук або виконання коду Python. Проте, OpenAI заявляє, що її відкриті моделі є лише текстовими, тобто вони не зможуть обробляти або генерувати зображення та аудіо, як інші моделі компанії.
OpenAI випускає gpt-oss-120b та gpt-oss-20b за ліцензією Apache 2.0, яка вважається однією з найбільш дозвільних. Ця ліцензія дозволить підприємствам монетизувати відкриті моделі OpenAI без необхідності платити або отримувати дозвіл від компанії.
Однак, на відміну від повністю відкритих пропозицій від ШІ-лабораторій, як-от AI2, OpenAI не буде розголошувати дані, використані для навчання своїх відкритих моделей. Це рішення не дивує, враховуючи, що кілька активних судових позовів проти постачальників ШІ-моделей, включаючи OpenAI, стверджують, що ці компанії неналежним чином навчали свої ШІ-моделі на захищених авторським правом творах.
OpenAI кілька разів відкладала випуск своїх відкритих моделей, частково для розв’язання питань безпеки. Окрім звичайних політик безпеки компанії, OpenAI у технічному документі заявляє, що вона також досліджувала, чи можуть зловмисники точно налаштувати її моделі gpt-oss, щоб вони були кориснішими у кібератаках або створенні біологічної чи хімічної зброї.
Після тестування OpenAI та сторонніми оцінювачами, компанія заявляє, що gpt-oss може незначно підвищити біологічні можливості. Однак, вона не знайшла доказів того, що ці відкриті моделі можуть досягти її порогу “високої спроможності” для небезпеки в цих сферах, навіть після тонкого налаштування.
Хоча модель OpenAI виглядає як “найсучасніша” серед відкритих моделей, розробники з нетерпінням чекають виходу DeepSeek R2 — її наступної ШІ-моделі для міркувань, а також нової відкритої моделі від Meta’s Superintelligence Lab.
